- ベストアンサー
データのクラスター分析?
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
仰る通り、クラスター分析もひとつの手だと思います。 非階層的クラスター分析を使った場合、温泉を幾つかのグループに分類しても、それぞれのグループの特徴を旨く言えるかどうかが問題になるかも知れません。 階層的クラスター分析をやって、分岐が生じるところに着目して「その分岐では、どういう特徴でクラスターを区別しているのか」を言語表現にしてみる方が易しそうに思います。が、何階層も分岐していくと、言語表現が複雑になっちゃいそうです。 一方、主成分分析を使うのも手だろうと思います。データのばらつきを最も良く説明するような共通の尺度(1~3個ぐらい)でサンプルを測った散布図を作る。そうすると、全体の分布の様子と、各温泉の大まかな傾向がとても見やすくなります。 これらの尺度は測定データの線形結合で表される変数であって、尺度同士は互いに直交しています。もともとN個の変数があったものをたとえば2個の尺度だけで表現するということは、N次元空間中の点(ひとつの点がひとつの温泉)を2次元平面に射影することに他なりません。さて、これらの尺度に旨い名前を付けてやれば、温泉を大まかに分類する言葉が構成できたことになります。 次に、各温泉について、これらの尺度では表せない特徴を考えます。それにはN次元空間において、その点から、射影した2次元平面への距離に着目する。この距離が小さい温泉は、(2個の尺度で表される以外の)独自の特徴というものはさして持っていない。しかしこの距離が大きい温泉は(2個の尺度だけでは表せないような)独自の特徴を持っているんで、それを表す標語を作ってみる。 なお、どの手法も、取り上げたサンプル全体の中での相対的な特徴を見ている(だから正規化しても良い)のであって、すなわち、サンプルに何を含めるかで結果が違ってくる。客観的な分析だと言えるほどのものじゃありません。 > このまま正規化していいのか いいです。
お礼
返答遅れてすいません。 アドバイスを参考にして、階層クラスター分析の結果と主成分分析の主成分得点の分布図を照らし合わせて、言語表現による分類分けを行うことができました。 ありがとうございました!!