• ベストアンサー

データのクラスター分析?

私は今、ある高原の景観、音、空気成分濃度などをすべて定量化し、各エリアの特徴を見つけたいと思っているものです。 たとえば、このエリアは「静かでガス成分が濃い」などと・・ この分析はクラスター分析を使用すれば求められると、先人の論文を見て見つけたのですが、いまいち方法がわかりません。 エクセルのマクロなどでできることはできるのですが、これでいいのか・・・汗 画像で乗せますが、正規化をしたほうがいいということなのですが、 変数の一つに+と-のデータが入るものがあり、このまま正規化していいのかも疑問です。 何かアドバイスしてくれる方がいましたらよろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

 仰る通り、クラスター分析もひとつの手だと思います。  非階層的クラスター分析を使った場合、温泉を幾つかのグループに分類しても、それぞれのグループの特徴を旨く言えるかどうかが問題になるかも知れません。  階層的クラスター分析をやって、分岐が生じるところに着目して「その分岐では、どういう特徴でクラスターを区別しているのか」を言語表現にしてみる方が易しそうに思います。が、何階層も分岐していくと、言語表現が複雑になっちゃいそうです。  一方、主成分分析を使うのも手だろうと思います。データのばらつきを最も良く説明するような共通の尺度(1~3個ぐらい)でサンプルを測った散布図を作る。そうすると、全体の分布の様子と、各温泉の大まかな傾向がとても見やすくなります。  これらの尺度は測定データの線形結合で表される変数であって、尺度同士は互いに直交しています。もともとN個の変数があったものをたとえば2個の尺度だけで表現するということは、N次元空間中の点(ひとつの点がひとつの温泉)を2次元平面に射影することに他なりません。さて、これらの尺度に旨い名前を付けてやれば、温泉を大まかに分類する言葉が構成できたことになります。  次に、各温泉について、これらの尺度では表せない特徴を考えます。それにはN次元空間において、その点から、射影した2次元平面への距離に着目する。この距離が小さい温泉は、(2個の尺度で表される以外の)独自の特徴というものはさして持っていない。しかしこの距離が大きい温泉は(2個の尺度だけでは表せないような)独自の特徴を持っているんで、それを表す標語を作ってみる。  なお、どの手法も、取り上げたサンプル全体の中での相対的な特徴を見ている(だから正規化しても良い)のであって、すなわち、サンプルに何を含めるかで結果が違ってくる。客観的な分析だと言えるほどのものじゃありません。 > このまま正規化していいのか いいです。

gouryella
質問者

お礼

返答遅れてすいません。 アドバイスを参考にして、階層クラスター分析の結果と主成分分析の主成分得点の分布図を照らし合わせて、言語表現による分類分けを行うことができました。 ありがとうございました!!