- 締切済み
SPSSでクラスタ分析の際のデータ
SPSSは使ったことがありませんが、仕事で急に必要になりました。ご存知の方はお教えください。 SPSSで、クラスター分析(デンドログラム出力)を行いたいと思います。 その際、データとしては通常の観測変量(変数)ではなく、独自に計算した距離データを使うことになりました。 色々な書籍をあたったのですが、指定した変数から、SPSS内で距離(距離行列)を求め、分析、作図されることはわかりました。 しかし、距離(距離行列)を与えて、分析、作図する方法がわかりません。 メニューから距離行列を与えての操作はできないのでしょうか? シンタックスで、コマンドを指定し、距離行列を読み込んで処理させるしかないのでしょうか? シンタックスで処理するしかないのならば、主なコマンド名だけでもお教えいただけませんでしょうか? コマンドでもクラスタ化の方法は指定できますでしょうか? また、距離行列は、左下だけの三角領域の指定だけを想定していますが、これで良いのでしょうか? SPSS初心者(それよりひどいかも)のため、質問ばかりになってしまいましたが、よろしくお願いいたします。
- みんなの回答 (4)
- 専門家の回答
みんなの回答
- Mathematica
- ベストアンサー率22% (50/225)
私は、実務家ではないので異常値の取り扱いについては、何とも申し上げられませんが、デンドログラムの性質から、逆に異常値が検出しやすい特性があります。むしろ、異常値を排除(明らかに測定誤りはのぞきますが)せずに、そのまま計算してみてはどうでしょうか?
- Mathematica
- ベストアンサー率22% (50/225)
つまり、(1-相関係数)を距離とするわけですね。しかし、相関係数は最大で-1になることもありますから、全く類似していない場合は、距離が2となる可能性もありますが、あなたの距離の定義は0<=L<=1となっているようですが、問題はないのですね?
補足
鋭いご指摘、ありがとうございます。 この式で扱うのは、ある流体(正確には気体)で、ある程度ブロック分けされた観測点を用いています。そのため、相関係数から求められる距離はご指摘の通り、0<=L<=1と想定いたしております。 今回のご指摘で、もう一度考えてみました。 ブロックを拡大したり、異常な流れができれば、相関係数が-1もありえると思いますが、それは距離作成の際、除外するようにしていますので、問題ありません。 距離行列を作成する時は、除外せず、1を越えたものは、負の大きな値を設定するようにして、SPSS内で対象外にすれば問題ないと考えております。 以上のように考えましたが、如何でしょうか?
- Mathematica
- ベストアンサー率22% (50/225)
>独自に計算した距離データを使うことになりました。 私は、ユークリッド平方距離か、マハラノビス距離しか使用していませんが、独自に計算した距離とはどのようなものでしょうか?もし、よろしければ、教えてください。
補足
ご回答ありがとうございます。 説明が難しいのですが、簡単に説明させていただきます。 ある点A、Bがあります。 ある条件下で、A、Bそれぞれで観測される値をベクトル化します。 このベクトルの内積を長さの積で割った値を、1から引きます。これを距離としています。 式で示しますと、A、Bで観測されたベクトルをa、bとします。 1- |a||b|cosθ/|a||b| となります。 同じ点ならば0、似ている点ならば0に近くなる、全く違うなら1に近くなることを距離として扱っています。 この距離を、全ての点同士で計算し、行列化もできます。 そのため、階層クラスター分析に適したものとなっています。 今取り扱っている距離は、さらに時系列が加わりますが、それは今回のお話の根本ではないので、おいておきます。 よって距離といっても、類似度をあらわす指標というのが正しいでしょうか? このような説明で、お分かりいただけますでしょうか? よろしくお願いいたします。
- backs
- ベストアンサー率50% (410/818)
私はSPSSをあまり使ったことがないので、簡単な分析方法しか分からないのですがdaachanさんがどうしても必要というのでしたら以下のURLで聞いてみるのがよいかと思います。 ・中部大学の小塩先生のwebサイトで、SPSSについての質問ならメールで受け付けてくれるかもしれません。 http://psy.isc.chubu.ac.jp/~oshiolab/index.html ・「インフォメーションセンター」か「お問い合わせはこちら」で質問できますが、後者のほうは購入前のお問い合わせなので普通の操作の説明はしてくれません。 なので「現在会社でSPSSを使っています。そこで個人でSPSSを購入しようと迷っているのですが、~~はできるのでしょうか。」などと買うような言い方をすれば対応してくれます。 http://www.spss.co.jp/product/spss/index.html
お礼
ご回答、誠にありがとうございます。 小塩先生のお名前は、SPSSの書籍を探している時(正確には漁っている時)に何度か拝見いたしました。 書籍の作者の方はお忙しいと思いますので、もうどうにもならなくなった時に、お伺いしようと思っております。 SPSSの購入前のお問い合わせは、既に利用させていただきました。 ずばりの回答はくれませんでしたが、少しだけヒントをいただきました。それに添えて、購入の上、サポートに入っていただければ、データやコマンドの相談にのれると、丁寧に回答をいただきました。 そのため、取り合えずSPSSのStudent版Ver.11の入手を決め、現在注文中です。(書店から、Ver.13はどうかと進められたのですが、時間がないので、11にしています。)もちろん、サポートは受けれませんが。 初めての教えて!gooでの質問で、心細かったのですが、光が差してきたようで、ありがたかったです。 誠にありがとうございます。
お礼
ありがとうございます。 異常値に関しては、そのまま利用してみます。 測定器から測定器の異常や何らかの異常の場合、別のフラグでデータが来るようになっています。 あくまでも、異常値も有効な測定値というのを忘れておりました。 実務ばかりの話で、申し訳ないです。 また、デンドログラムも単なる分類分けと思っておりました。しかし、変に孤立したものがあれば、それは何らかの要因があるということですね。 勉強になりました。本当にありがとうございます。