• ベストアンサー

質的データと量的データの相関について

例えば性別のような質的なデータとテストの点数などの連続変数からなる量的データの間の相関をみるということは出来るのでしょうか??統計の本には相関の結果が書いてあるのですが、結果の読み取り方と計算の仕方がわかりません。基本的な質問ですみませんが、どなたか教えていただけませんか?? 宜しくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • sanori
  • ベストアンサー率48% (5664/11798)
回答No.1

で・き・ま・す!!! こんなこと、なかなか学校ではカリキュラムの中でなんか教えてくれないですよね。私も決して専門家ではないんですが、我流で考えました。(まー結果的には我流でなくて正統流だと自負しているんですが) さて、本題。 ご質問の文中「質的なデータ」とおっしゃってますが、要は、これも不連続ではあるんですが、数に見立ててしまえばいいんですよ。 <例1> 2者(男と女)での性質の違いを調べたいとき →数はなんでもよいんですが、例えば、男を1、女を2とすればよいです。 <例2> 3者のものを比べたいとき(男、女、オ○マの3種類とか) →次の3通りについて、全部相関を調べればよいです。 ・A群を1、B・C群を2    →これで相関が出ればAに属するか否かによって性質が違うということが言えます。 ・B群を1、A・C群を2 → 以下同文 ・C群を1、A・B群を2 →  〃 Excelとかだと、「相関係数」が容易に関数として求めることができるので、ちょー簡単に分析できますよ。 相関係数というものは-1から+1までの値をとります。絶対値が1に近いほど相関あり、0に近いほど相関なしです。相関係数の絶対値だけが問題なので、男を1、女を2としても、その逆にしてもよいわけです。 私、日ごろ、当たり前のように、応用してますよ。 <実用例> パンを焼く機械が3台ある工場で、製造不良数と使用機械との間に相関がないかどうか調べる。 この結果、特定の機械でつくったパンだけに不良が多い傾向が認められれば、その機械に対して対策を打つ・あるいは使用禁止にして、残り2台のみ稼動とする など。 以下、補足です。 このような3者以上の時って、結果的に相関係数が最大になるように、それぞれに対する「数値」を微妙に調整していくと理想的ですね。(←試行錯誤的な繰り返しになると思いますが) 例えば、3つの中でナンバー1がどれでワースト1がどれと決まり、さらには、両者の中間のは、どちらかというと他の2つのどちらに近いか、といったことまで判ります。だけど、ここまで分析するのは複雑だし時間がかかるので、私は実用的にはやっていません。前記のように3種類を2種類ずつ3通りに分けるだけで十分と思います。

その他の回答 (2)

  • selfer
  • ベストアンサー率76% (104/136)
回答No.3

こんにちは. 質問者さんは,質的データ変数と量的データ変数の組合せから何らかの類似性の指標を求めたいわけですね? Excelの関数で実行できる「相関係数」を使うのであればNo1さんが示されているようなやり方もあるかもしれません. ここでは,それぞれの変数の組合せで使用される,より適切な類似性指標を紹介したいと思います. ある変数とある変数の類似性を示す数値を求める場合には,その変数が量的データなのか,質的データなのかによって異なる指標を使わなければなりませんね. 量的×量的→ピアソンの相関係数(いわゆる相関係数) 量的×質的→相関比 質的×質的→クラメールの連関係数 ※他にもスピアマンの順序連関係数,φ係数などありますが略. ※上記三つがももっとも汎用的でしょう. 量的変数と質的変数との組合せから,このような類似性の指標を使うようにアドバイスを出すことができます. さて,質問者さんが求めたいデータの組合せは,上の分類によると「相関比」となります.一般には相関比の計算法や結果解釈法などは書かれていません(というよりは相関比そのものがマイナーです). 計算法なのですが……質問者さんは「分散分析」の計算法は御存知ですか? 求めたいデータに対して,いわゆる「対応なし(被験者間/連関なし)一要因」分散分析を実行してください(Excelでも「分析ツール」を使えば実行できます).すなわち性別による要因によって量的変数の数値(の平均値)に差があるかどうかを調べる形になります. その結果から,要因Aによる変動の平方和「SSA」と全体Totalの変動の平方和「SST」の数値を抜き出して,           SSA(要因Aによる変動平方和)  相関比の二乗=─────────────────            SST(全体の変動平方和) この相関比を計算してください. この計算原理を見ると分かるように,質的×量的データの類似性とは,質的変数の種類(男性,女性)によって量的変数の平均値に違いがあるか,もし質的変数によって違いがあるということは,質的変数の種類1と平均値1とが関連がある,質的変数の種類2と平均値2とに関連がある,ということを見ているわけです. 相関比(η)の二乗はの範囲は0≦ηの二乗≦1となり,1に近いほど関連ありとなります.また,相関比の二乗をルート計算で相関比そのものを出してもかまいませんね.相関比の場合も同様に0≦η≦1の範囲をとり,1に近いほど関連ありと判断します. 相関比そのものの場合は,大雑把な目安ですが,相関係数と同様に以下のような判断を下せます.  0.0≦η≦0.2:ほとんど関連性なし  0.2<η≦0.4:弱い関連性あり  0.4<η≦0.7:比較的強い関連性あり  0.7<η≦1.0:強い関連性あり

noname#6201
noname#6201
回答No.2

相関があるかということですが、この場合の関心は「グループ(例えば男女)に違いがあるか」というでしょうから、闇雲に強引な相関を求めるよりも、グループごとの違いを見る方が重要なのでは? ということで最もわかりやすいのは質的データに1,2,3などの値を割りふり散布図を描くことではないでしょうか。(それぞれのヒストグラムを描いて比較してもいいですが) 統計的なことを用いたいのでしたら、グループごとの平均に関する検定(分散分析)経験的な上位、中位、下位の階級などを決めて集計したもののカイ2乗検定などを実施するのがよいのでは。