※ ChatGPTを利用し、要約された質問です(原文:クラスター分析でのクラスター数について)
クラスター分析のクラスター数について
2005/09/19 00:57
このQ&Aのポイント
クラスター分析の初心者が、クラスター数を決める方法について悩んでいます。統計的な示し方に興味があるため、BealeのF値を使いたいと考えていますが、うまく行きません。詳しい方に教えていただきたいです。
BealeのF値(Beale's Pseudo F statistic)は、2つのクラスター結果の間の偏差平方和から求められます。具体的な計算式は、F*=(W2-W1)(n-c1)k1/W1[(n-c2)k2-(n-c1)k1]です。ここで、nは全個体数、c1とc2はクラスター数、k1とk2は変数の数に関係した係数です。また、FcritはF分布の一定のパーセンタイル点であり、C1を採択するかどうかを決める指標です。
W1とW2の求め方について説明します。W1とW2はそれぞれのクラスター内のクラスター平均からの偏差平方和です。具体的には、各クラスター内の個体ごとに変数の値を取り出し、クラスター平均との差を求めた後、その差の二乗を計算します。そして、それらの値を変数ごとに合計し、W1とW2を求めることができます。なお、ご参考になるサイトのURLを記載しておきます。
クラスター分析の初心者です。クラスター数をどうするか、何個に分類するか迷っています。これまでの質問をみていると主観的に分けたらいいと書かれていますが、なにか統計的に示したいと考えています。
そこであるHPからBealeのF値のやり方が載ってました。これを用いたいと思うのですがうまくいきません。すいませんが詳しい方教えてください。そのHPには、
BealeのF値(Beale’s Pseudo F statistic)
2つのクラスター結果C1とC2(クラスター数はそれぞれc1,c2でc1>c2)があったとする。W1、W2をそれぞれのクラスター内のクラスター平均からの偏差平方和とすると、ビールのF値は、F*=(W2-W1)(n-c1)k1/W1[(n-c2)k2-(n-c1)k1]で定義される。ただし、n=全個体数、k1=c1-2/p、k2=c2-2/p、p=変数の数
F*>FcritならばC1を採択。FcritはF(k2(n-c2)-k1(nc1),k1(n-c1))のF分布の(例えば)5%点。
http://okabe.t.u-tokyo.ac.jp/okabelab/asami/clustering.pdf
このように書かれていました。わからない点は、W1,W2の求め方です。
私の考えでは、W1において分かれている個々のクラスター内で変数毎に平均値を求め、それを用いて変数毎にクラスター間で偏差平方和をして、変数分合計を出すと考えています。そうすると私がしたクラスター分析ではF値がマイナスになってしまいます。この考え方は間違っているのでしょうか?
分析対象は、個体数22、変数100となっています。
質問の原文を閉じる
質問の原文を表示する
補足
ご回答ありがとうございます。 1・3つ目については、よくわかりました。 すいませんが2つ目について、再度お伺い致します。あの後、よく考えて、sollaさんのように考えたのですが、個々のクラスターでユークリッド距離(偏差平方和)について求め、その後が解りません。その数値を合計するのか平均を出すのか、またユークリッド距離を出すのか解りません。どのように考えたらいいのでしょうか?