• 締切済み

クラスタ分析 結果の安定性について

統計解析の初心者です。 2つの疑問と対処法に困っています。お分かりになる方ぜひ教えて いただければ幸いです。 <使用ソフトと分析方法> ・ソフト:SPSSの ・分析方法:大規模ファイルのクラスタ(非階層クラスタ/K-means法) ・変数:事前に行った因子分析結果の7因子の因子得点 <1> クラスタ数を5に指定し、その他をデフォルトの設定で行ったところ、 「反復の記録」のところで、「反復が最大回数実行されたため、反復を 終了しました」というメッセージが出ていました。 (反復回数「10」、収束基準「0」) この結果を最終結果として用いてはいけないものなのでしょうか? 実は既に一度この結果を提出してしまっているのですが…、 後から気づいて、試しに反復回数を変えて何度かやってみたところ、 あまりに結果(クラスタ別の因子得点平均点)が違うことに驚いて います。 既に結果を提示してしまっているため、できれば、最初に行った結果 でも誤りではない、という根拠が得られればと思っています。 <2> 上記のクラスタ分析の結果について、「安定性を検証して欲しい」 という要望を受けました。 クラスタ分析の「安定性」に該当する数値を出す方法とは、どのような 方法があるのでしょうか? 例えば、因子分析の場合の累積寄与率のように「○○%」という形で わかりやすくバシッと数値で出せるものなのでしょうか? SPSSで出せる方法を知りたいと思っています。 基本的な質問で恐縮ですが、よろしくお願いいたします。

みんなの回答

  • taba
  • ベストアンサー率61% (349/567)
回答No.1

1.収束していないので、数学的には確定していない(計算を続ければ、さらに条件にあった分け方が見つかる可能性がある)ということになります。k-meansなら、収束しない結果はあまり使わないと思います。 2.クラスタ分析には安定性の概念はありません。すべてのサンプルを、必ずいずれかのグループに分けることに留意してください。はずれサンプルを認めないのであれば、どうしても無理矢理分けることになります。 数学的に収束しても、それが分析目的にマッチしているかどうかは、また別の判断です。クラスタ分析がサンプルを類似したもの同士まとめることが目的であるならば、分類したクラスタが「どれくらい違う(属性・特性の)メンバに分かれたか」で評価するわけです。 内容は分かりませんが、おそらく因子分析の方が安定しないでしょう(寄与率と安定はまた別の話)。 分析手法の内容が理解できていないのであれば、利用は控えた方がよいです。