クラスター分析でのクラスター数について
クラスター分析の初心者です。クラスター数をどうするか、何個に分類するか迷っています。これまでの質問をみていると主観的に分けたらいいと書かれていますが、なにか統計的に示したいと考えています。
そこであるHPからBealeのF値のやり方が載ってました。これを用いたいと思うのですがうまくいきません。すいませんが詳しい方教えてください。そのHPには、
BealeのF値(Beale’s Pseudo F statistic)
2つのクラスター結果C1とC2(クラスター数はそれぞれc1,c2でc1>c2)があったとする。W1、W2をそれぞれのクラスター内のクラスター平均からの偏差平方和とすると、ビールのF値は、F*=(W2-W1)(n-c1)k1/W1[(n-c2)k2-(n-c1)k1]で定義される。ただし、n=全個体数、k1=c1-2/p、k2=c2-2/p、p=変数の数
F*>FcritならばC1を採択。FcritはF(k2(n-c2)-k1(nc1),k1(n-c1))のF分布の(例えば)5%点。
http://okabe.t.u-tokyo.ac.jp/okabelab/asami/clustering.pdf
このように書かれていました。わからない点は、W1,W2の求め方です。
私の考えでは、W1において分かれている個々のクラスター内で変数毎に平均値を求め、それを用いて変数毎にクラスター間で偏差平方和をして、変数分合計を出すと考えています。そうすると私がしたクラスター分析ではF値がマイナスになってしまいます。この考え方は間違っているのでしょうか?
分析対象は、個体数22、変数100となっています。
お礼
回答ありがとうございます。参考にさせていただきます。 自分でも調べてみて、何とかなりそうな所です。 本当にありがとうございました。