• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:どれだけ似ているかを統計的に解析)

統計的に似ている度を解析する方法とグラフ化の手法

このQ&Aのポイント
  • 統計的に似ている度を解析する方法としては、各グループの指標の値を比較し、差異を計算することが一般的です。
  • 具体的には、各グループ間の指標の値の差を算出し、距離として表現する方法や、類似度を計算する方法があります。
  • また、グラフ化の手法としては、マルチディメンショナルスケーリング(MDS)やヒートマップなどを利用して、各グループの位置関係を図示することができます。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.2

 「多次元尺度構成法」、広くは「因子分析法」と呼ばれる分野の問題だろうと思います。(技術的には「重回帰分析」とほとんど重なる話です。)  10個の指標同士の独立性・従属性(つまり相互の類似性)がまず問題になります。たとえば、 指標1:バナナはおやつに入ると思いますか。(5=激しく同意 <-------> 0=激しく否定) 指標2:おやつにバナナを食べるのはアリだと思いますか。(5=激しく同意 <-------> 0=激しく否定) という二つの指標は、おそらく高い相関を示すでしょう。(実質的に同じ質問や正反対の質問をひとつのアンケートの中に入れておくというテクニックは、「アンケートにどのぐらいマジメに答えているか」を測るために、実際に使われています。)実質的にこの二つの指標はひとつの指標としての価値しかない。なのに、二つと数えてしまうと変な話になりますよね。  この場合には、得られた全データ(5つのグループを区別しない)を使って、主成分分析等によって指標の10次元空間に直交座標系(10次元未満。多分3~4次元ぐらい)を構成するのがセキノヤマであろうと思います。セキノヤマってのは、もし、「5つのグループが、あらゆるサンプルを公平に網羅している」という前提が成立つのであれば、この直交座標系はソコソコ客観的な尺度を与える空間だろうと思っても良いかも知れない、という程度のことです。  さて、この直交座標系における各成分の値は、「10個の指標それぞれに定数を掛けたものの総和」という一次式で表されます。  グループの成員それぞれについて、(あるいはグループの平均について)、この直交座標系における座標(つまり位置)を計算すれば、二つのグループ間の距離が自然に定まることになります。とは言っても、5つのグループから構成された空間における距離なのだから、絶対的な意味を持っている訳ではありません。また、空間の各軸を何倍か引き延ばしても構わないのだけれど、そうすると距離が変わってしまいます。  なので、どういう尺度空間を作るのが、その用途に照らして適切か、ということを考えねばならない。機械的に答を出すという訳には行かないんです。

その他の回答 (1)

回答No.1

前提が良く分かりませんが、 分類問題としては、 混合ガウス分布(EMアルゴリズム)の問題かと思います。 たぶん、それらを使って、 5つのグループに分類され、各グループの推定される重心が、 Aグループはスコア、10,1,・・・・・(10次元) Bグループはスコア、5,2,・・・・・(〃) となったわけですね。 あなたの書き方は、列、行の表現が逆です。 さて、ここから、各グループ間の距離を論じるわけですが、 それぞれのグループは、どのくらいの「ばらつき」を持っていますか。 それが分からなければ、類似性は議論できません。 質問されるからには、10次元空間の重心間ユークリッド距離ではマズイと 思われているのですよね。 この場合は、マハラノビス距離のような距離を使いたいものですが、 各方向のばらつきが分からないと無理です。 RのMclustを実行すると、分散共分散行列として出力されるヤツです。 図示する場合、2次元に縮約して示す方法として主成分分析、独立成分分析が あります。 しかし、そのためには、5つのグループに分かれたという結論を出す前の サンプルが必要です。30~50個くらいのサンプルはあったんですよね。 それを用いて計算します。

関連するQ&A