• ベストアンサー

クラスター分析の切断面

初歩的な質問ですみません。 1.クラスター分析の切断面は結合距離の1箇所で切らないといけないのでしょうか? ある人の文献では、1箇所の結合距離で切ってクラスター群を分けたり、 またある人は2箇所で切ってクラスター群を分けていました。 2.切断する場所はその人の主観で決めているのでしょうか? 3.同一の調査を行なった、2つの樹状図の切断面は同じ距離で切らないといけないのでしょうか? なにぶん素人なので分かりやすくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • selfer
  • ベストアンサー率76% (104/136)
回答No.2

Selferです.補足説明拝見しました. >A,B,C,D,E,F,G,Hの8系統で、 >系統AとBが結合距離1で結合、系統CとDが2で結合、(A,B)と(C,D)が3で結合、 >(A,B,C,D)とEが5で結合、FとGが4で結合、(A,B,C,D,E)と(F,G)が6で結合、 >(A,B,C,D,E,F,G)とHが7で結合、 距離1(A,B)(C)(D)(E)(F)(G)(H) 距離2(A,B)(C,D)(E)(F)(G)(H) 距離3(A,B,C,D)(E)(F)(G)(H) 距離4(A,B,C,D)(E)(F,G)(H) 距離5(A,B,C,D,E)(F,G)(H) 距離6(A,B,C,D,E,F,G)(H) 距離7(A,B,C,D,E,F,G,H) こういうことでしょうか? >この図で先輩は(A,B),(C,D),(E),(F,G),(H)の5群に分類してました。 ふむ.確かに先輩の方の分類は上記のどの距離段階にも対応していませんね. 敢えて言えば,ひとまず「距離4:(A,B,C,D)(E)(F,G)(H)」を採用して,そこに補足的に「(A,B)(C,D)」という群分けを組み込んだのですか…… クラスター分析は基本的に一つの切断面で判断をするのが通常の使い方なので,結果至上主義ならば,確かにこの恣意的な分類に対しては反論がでると思います. ただし,前回でも回答したようにクラスター分析は「最適な分類基準を見付けるための一つの方略」なので,もっと言えば,クラスター分析の結果を参考にして,新たな判断基準を……先輩がされたような補足組み込み的な分類基準を考案されるのも一つの方法だと思われます. それよりも「その群分け基準」が有効かどうか,が問題となります.ある研究のデータをクラスター分析することである「群分け基準」が提供されたとします.しかしこの基準が良いかどうかは,「その群分け基準を使うことによって別の研究結果の説明効力が高い」ということによって検証されるものです.その時に,クラスター分析のコンピュータ計算結果をそのまま信じた判断基準が有効でなかったのならばその分類基準は良くないものであり,多少恣意的な判断基準であっても,その基準の方が説明効力が高いのであれば,その恣意的な判断でも別に構わないと思います. この辺になると,クラスター分析などデータ解析法の結果を率直に信じるタイプと,それらはあくまでも(大いに有効であるが)参考資料でしかないというタイプ,いずれのタイプによって意見は分かれると思います. 統計学者のフィッシャーは統計法の結果はあくまでも判断基準の一つであるとして後者の立場を,フィッシャーの後継者であるノイマン&ピアソンなどは前者の立場であり,どちらの意見が正しいか,とは一概には言えないでしょう. データ解析法を道具的に使用される研究者(統計学が専門ではない研究者)であるならば,ある程度恣意的であっても,【妥当性・信頼性の高い仮説に適合させるならば,データ解析結果は非常に有効な判断資料ではあるが,結果をそのまま鵜呑みにしない方がいいのではないのか】,というのが個人的な意見です. 要するに,恣意的な群分けを採用されるのならば,それなりの説得力がある意見を添えておかないと,他者からの反論に対応するのがきついぞということです.

bancyan
質問者

お礼

番ちゃんです。 早朝からご協力いただきありがとうございました。 私のあやふやな質問に丁寧に答えって下さる人がいて 本当に助かりました。

その他の回答 (1)

  • selfer
  • ベストアンサー率76% (104/136)
回答No.1

質問の中に意味がいまいちわからないものもあるので,こちらの勝手な推測を交えつつ回答を試みます.当方の勘違いや疑問点があれば御指摘下さい. ※以下の樹形図は,等幅フォントで綺麗に表示するようにしていますので,  できれば,樹形図をコピー&ペーストをして,等幅フォント(MSゴシックなど)  にして表示をして下さい.  ―――――――――― クラスター分析の樹形図表 ―――――――――      0 10 20 30 40 50 60 70 80 90      └――┴――┴――┴――┴――┴――┴――┴――┴――┴   【A市】──────────────────────────┐   【B市】──┐                       │         ├─────┐                 │   【C市】──┘     ├──────┐          │   【E市】────────┘      ├──────────┘   【D市】───────────────┘  ―――――――――――――――――――――――――――――――――            ↑     ↑            甲     乙 例えばある問題に対してクラスター分析(正確には階層的クラスター分析)を行うと,上記のような樹形図が描かれるのは御存知の通り.さて,クラスター分析では,グルーピングの過程が描かれていますので,そのどこでグルーピングかをするかは【基本的に】自由です. その場合のグルーピングの判断基準(これが質問者の「切断面」に該当でしょうか?)によって…… ・「甲」の基準で選ぶとすれば,(A)(B,C,E)(D)の三群 ・「乙」の基準で選ぶとすれば,(A)(B,C,E,D)の二群 となります.一般的には判断基準は一つだけ(少なくとも一般的には)です(正直「二カ所」という意味が分かりません.もしよろしければ,上記例題などを補足説明をお願いします).[1の回答] 基本的なクラスター分析の使い方は,このような群分けなのですが,クラスター分析はその計算オプションによって描かれる樹形図が大きく異なる場合があります. 仮に異なる計算オプションによる樹形図を見比べて,群分けの種類を検討して,最適な群分けは何かを考えるとしましょう. とはいえ,クラスター分析による群わけは比較的自由に行えますので,それぞれの樹形図で「この辺がいいかな?」と思ったところを選んでもらって構わないのです.よって,同じ距離で切らないといけないということはありません. というよりはあまり意味がありません.そもそも異なる樹形図では,その距離の計算方法が異なっていますので,樹形図1と樹形図2の距離はもはや同等ではありません.すでに樹形図ことに距離の意味が異なりますので,例えば同じ距離=10であっても,図1と図2とでは別物なのです.[3の回答] さて,最後に判断基準「切断面」についてです.基本的には主観で結構です. そもそもクラスター分析というのは,重回帰分析や因子分析など他の多変量解析とはことなり,「明確な結果を出さない(出せない)」という特徴のデータ解析法です. こうかいてしまうと,随分胡散臭いものだと思われるでしょうが,そもそろデータに対する視点が異なると,その解釈や結果が異なるのは当たり前なのです.その意味ではクラスター分析は当然のデータ解析法なのです.他の多変量解析は,色々な視点の中で【強引に,ある特定の視点だけ】の結果や解釈を提供しているに過ぎません.一見,明確な答がでるように思えますが,視点を強引に固定しているわけですから極絞られた明瞭な結果がでるのはあたりまえ……というより簡潔な結果が出るように視点を絞っているにすぎません. そのため「そんな視点(モデル)を固定しては駄目ではないか?」という批判がデータ解析法に対して浴びせられ,もう少しモデルを緩やかにして,その代わり明瞭な結果を一つだけ提供するのではなく,「このようなモデルが考えられる」と複数の結果を提示するようなデータ解析法<データマイニング>が登場してきています.クラスター分析とは,そのようなデータマイニングの一つです. 故に,どのような切断基準を採択するのかは主観で構いません.というよりはその基準による群分け,その群分けを使うと,自分の仮説が上手く説明できるかが問題なのです.自分の仮説に合う群分けを選んで下さい. ……と,ここで説明を終えることができるのですが,そうは言っても何らかの客観的な判断基準が欲しい,という意見もあります.データマイニングの考え方としては不適だと思われますが,そのような意見に対応すべき一応,客観的な判断基準,というものはあります. 「ウォード法」を使い,「疑似F値」「疑似t値」そして「セミパーシャルRの二乗値」という数値がお使いの統計ソフトで出力されていれば,それらの数値を使うことである程度参考とすることができます.とはいえ,これらの数値はあくまでも参考数値であり,決定的に決まるものでもありませんが…… 更には,とにかくコンピュータに自動的に群分けをしてもらう,ということもできます.この場合コンピュータに「何個の群に分けるか」を予め設定させることで,統計的に有効な群分けをしてくれます.一般に「非階層的クラスター分析」と呼ばれる手法で,とにかくコンピュータで分けさせたい,というのであればこの方法を使うのも一つの手でしょう.ただし,この方法では樹形図を使っているわけではないので,樹形図は(私の知る限り)表示されません.[2の回答] 2.切断する場所はその人の主観で決めているのでしょうか?

bancyan
質問者

補足

selferさん、はじめまして。 大変分かりやすい回答で安心しました。 感謝します。 私の先輩が植物の系統分類を調査値をもとに比類似度を算出して、 群平均法(UPGMA)でクラスター分析していました。 図を描こうとしたのですが上手くいかなかったので、言葉で説明します。 A,B,C,D,E,F,G,Hの8系統で、 系統AとBが結合距離1で結合、 系統CとDが2で結合、 (A,B)と(C,D)が3で結合、 (A,B,C,D)とEが5で結合、 FとGが4で結合、 (A,B,C,D,E)と(F,G)が6で結合、 (A,B,C,D,E,F,G)とHが7で結合、 結合距離0  1   2   3   4   5   6 7 系統A----------         ----------------   B----------     I              I----------------   C------------------   I        I          --------        I   D------------------            I-------- I    I   E------------------------------------------- I I--------   F-----------------------------------  I I                     ---------------- I   G----------------------------------- I I H----------------------------------------------------------- 見にくい図ですみません。 本当はもっと多くの系統で構成してあるのですが、大体こんな感じです。 この図で先輩は(A,B),(C,D),(E),(F,G),(H)の5群に分類してました。 そこで気になったのですが、 判定基準を結合距離2~3のあたりにすると(A,B),(C,D)を分けることができますが、このとき(F,G)群も(F)と(G)に分けないといけないような気がするのですがどうなのでしょうか。 それとも、結合距離4~5あたりで分け、その後A,B,C,Dのみを2~3あたりで(A,B),(C,D)にわけることができるのでしょうか。 それとも、構成自体が間違っているとか。 よろしくお願いします。

関連するQ&A