• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:統計学 クラスター分析について)

統計学 クラスター分析について

このQ&Aのポイント
  • 動物行動学研究においてアンケート調査のデータ分析を行っています。
  • 質問回答が類似したサンプルをグループ分けしたいのですが、データ尺度が名義尺度と順序尺度が混ざっています。
  • クラスター分析には階層、非階層、Two Stepがありますが、尺度が混合している場合にはどれを使うのが適切でしょうか。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.1

こんにちは。メーンは社会調査を用いた主成分分析なのであくまで参考までにとどめてください。 階層と非階層は調べた限りでは、 生成するクラスタ数を決めている場合は非階層を用い、そうでない場合は階層を用いるようです(『新・社会調査のためのデータ分析入門』(2011)参考)。 また、質問者さんのおっしゃっているTwo stepですが、IBM Knowledge Centerによると探索ツールの一種のようなので、面倒であればそちらを使ってもいいのではないでしょうか(素人判断ですが)? また、尺度が混在しているとのことですが、個人的には問題ないのではと思います(例えば男性を1、女性を2として分類して、2に近いので女性が比較的多く持つ傾向のあるクラスタなのかな?と考える材料にはなりますし。私はよく使います。)。気になるようでしたら名義尺度を排除するのもありかもしれません。

miku3001
質問者

お礼

お忙しいところ早々にアドバイスいただきましてありがとうございます。 おっしゃるよにTwo stepとクラスタ数を決めて非階層でやってみようと思っています。もう一つ質問させていただきたいのですが、尺度が順序と名義で混在していますが、その場合はやはり値を標準化すべきでしょうか。名義が0-1の2値だとすると順序をそれに合わせて同じように0-1にしなければ正確な分析はできないと考えていいのでしょうか。順序尺度は1位、2位、3位、回答なし0という形の回答になっていますが、その場合はどのように合わせるべきでしょうか。アドバイスいただけるとありがたいです。よろしくお願いいたします。

その他の回答 (3)

回答No.4

No.1です。補足分に対する回答です。 >...NAとして除外している形と考えてよろしいでしょうか。0を入れたままでZ得点を取ればいいでしょうか。 回答なしに意味が無いのであれば、NAとして処理すべきでしょう。0を入れたままZ得点を取ると標準化した後の得点が歪みます(平均値と標準偏差がずれてしまうため)。私はSPSSを2年ほど触っていないので処理のしかたは覚えていませんが、一度該当部分をNAとした別データを作って(当然名前も変えて)クラスター分析をしてみてください。

回答No.3

No.1です。忘れていたので一つだけ質問です。 >順序尺度は1位、2位、3位、回答なし0という形の回答になっています 質問者様の実験計画では、「回答なしに意味があるのでしょうか?」意味があるのであればNo.2で書いたとおりで構いませんが、意味が無いのであればNAとして除外するべきです(分析結果が変わってしまうのを防ぐためです。)。

miku3001
質問者

補足

早々にありがとうございます。回答なし0は分析には意味はないのですが、Missing dataになってしまうため、0を入れているだけです。そういう意味ではおっしゃっているNAとして除外している形と考えてよろしいでしょうか。0を入れたままでZ得点を取ればいいでしょうか。何度もすみません。

回答No.2

No.1です。 追加質問の件ですが、 >尺度が順序と名義で混在していますが、その場合はやはり値を標準化すべきでしょうか。 標準化して分析を行うほうが良いと思います。正確な分析のためと言うよりは、比率を保ったまま正規分布に近づけて処理させたほうが解釈する際に都合がいいからです。 また、 >…その場合はどのように合わせるべきでしょうか。 無難にZ得点(平均値0、標準偏差1)でいいのではないでしょうか。

関連するQ&A