• ベストアンサー

ノンパラメトリックの検定と独立性の検定の違い

はじめまして。 学生と社会人に関する公共政策に対する意識調査のアンケートを各1000通づつ、2000通回収し、そのデータ分析をしております。 現在、属性(年齢、性別、職業〔学部〕など)と各設問の関係性を分析したり、意識の違いの因子を洗い出そうとしております。 本を見ると、掲題に記載してある言葉があり、 どちらもやってはみたものの、その違いがいまいちよくわかりません。 お忙しいところ恐れ入りますが、解りやすく、お教え頂ければ幸いです。 宜しくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • selfer
  • ベストアンサー率76% (104/136)
回答No.6

まさか四度目の登場をするとは思ってもいませんでした。おそらく最後の回答になると思います。 今回の質問は異なる尺度間の類似性の指標についてのようですね。まず最初に述べておきたいことは,異なる尺度の類似性については,必ずしも整備されていない,あるいは,かなり複雑な統計学理論を援用する必要があり,それほど手軽に使えるものではない,ということです。 そのため,多くの実用的対処法は,異なる尺度データであるならば,多少強引であっても,同じ尺度データに揃えるという作業を行います。 名義尺度,順序尺度,(比率&)間隔尺度が細かく分けた場合ですが,もう少し大雑把に分ける場合は,順序尺度を強引に間隔尺度とみなして,質的データ(カテゴリデータ)と,量的データ(数のデータ)の二つに分類することです。 この強引な二分法が意味するところは,順序尺度⇔間隔尺度は同じ「数」データとして処理することが(強引であっても)できるわけですが,名義尺度⇔それ以外の尺度は(簡単には)変換できないということです。 ○順序・間隔尺度→名義尺度に変換 順序性の情報をばっさり捨てることになります。間隔尺度とは等間隔が維持された順序尺度とみなせますが,その順序尺度と名義尺度を決定的に区別するポイントが「順序性」です。名義尺度に「落とす」場合,この「順序性」の情報を捨てなければなりません(順序性の重要性はNo4参考)。 ○名義尺度→順序・間隔尺度に変換 カテゴリに分析目的に合致する形で,何らかの「一次元的な順序性」が仮定できるならば,変換は可能です。例えば,「小学生」「中学生」「高校生」というカテゴリ(名義尺度)データは,「年齢」という一次元の観点から順序性を付与することができます。年齢の低い順から「小学生=【1】」「中学生=【2】」「高校生=【3】」のように。 問題は,このような一次元的な順序性が仮定できるかどうか,ですが…… 以上を踏まえて,回答します。説明の都合上,少し順番を入れ替えます。 >●間隔尺度と名義尺度の場合  →これは、何を使えばよいのでしょうか?例えば、間隔尺度である身長と「スポーツ」という名義で相関を取ろうとした場合、どうすればよいのですか? 間隔尺度を無理矢理に名義尺度にして,名義尺度×名義尺度の「クラメールの連関係数」という手があり得ます。あるいは直接的に間隔×名義尺度の類似性の指標である「相関比」というものが開発されているので,これを使うのも手でしょう。相関比はいささかマイナーな手法なので,説明文を探すのが大変かもしれませんが,頑張って下さい。 >●順序尺度×名義尺度(または、間隔尺度)の場合  →これは、スピアマンの順位相関係数を利用してよいのでしょうか?たとえば、アンケート結果から得られた「順位性データ」と属性情報で得られた「職業分類データ」の場合の相関を求めたい時です。 一言でさらっと述べていますが「順序尺度×名義尺度」なのか「順序尺度×間隔尺度」なのかによって全く異なります。 前者「順序×名義」の場合は ・順序尺度を名義化:名義×名義を参照 ・名義尺度をなんとか順序化:順序×順序を参照 ・順序尺度を間隔化:上記の「間隔×名義」参照(相関比) ・そのままで,直接的な「順位相関比」を使う。但し,「相関比」以上にマイナーなので,手法解説文を発見するのが難しい。 後者「順序×間隔」の場合は ・順序尺度を間隔化:間隔×間隔を参照 ・間隔尺度を順序化:順序×順序を参照 ※なお,上記の「○○化」とは,簡単に言えば,「○○尺度とみなす」ということです。 > また、確認ですが、ケンドールの順位相関係数を利用する場合は、アンケートの設問1の結果から得られた「順位性データ」と設問2の結果から得られた「順位性データ」がある時に、その回答の相関を見るために利用すべきものと理解しましたがよろしいでしょうか? 別に「ケンドールの」順位相関係数に限定した話ではありませんが,その通りです。 それでは分析頑張って下さい。

maro77
質問者

お礼

selferさん、このたびは大変お世話になりました。 金曜日に、分析の一時報告があり、selferさんから教えていただいたことを土台として、分析した結果、非常に周りから高い評価を得ることができました。 本当にありがとうございます。 まだまだ、分析作業は続きますが、これからも統計を自分の武器として使えるように、学んでいきたいと思います。 そして、今回、私とselferさんのやりとりの内容は、あまり本にも体系化されて詳しくのっていないことなので、多くの人の参考になればと思ってます。 また、何か疑問が出てきた場合は、教えていただければ幸いです。 取り急ぎ御礼まで。

その他の回答 (5)

  • selfer
  • ベストアンサー率76% (104/136)
回答No.5

三度目の登場です。統計教育に携わる者にとって質問者様の「本当にわかりやすく、統計が楽しくなってきました☆」という言葉は大変励みになります。 > しかし、設問によって、順序データではないものも含まれております。 > その場合は、設問によって、χ2検定を使ったりしてもよいのでしょうか? > ひとつのローデータに対して、検定方法を統一しなくてもよいのかという疑問があります。 その疑問に対する回答は人それぞれでしょう。私自身は,データの種類(尺度の種類)に応じて,適切な検定法を使えばよい,という立場を取ります。質問者様が疑問に思われているように,なるべく統一化した検定法を使うべきだという立場も十分納得できます。 このレベルになると,統計学の問題というよりは,分析者の主義主張になりますので,質問者様が納得できるものを選んで下さい。要するに,どちらの立場が正しいということはないわけです。主義主張なので,別の人が質問者様の立場に反対するかもしれませんが,根拠を述べて反論すれば良いと思われます。 さて,相関係数に関する質問についてです。 これまで質問者様が疑問に思われていた,独立性の検定やマンホイトニー検定&クラスカル・ウォリス検定などは「差異の統計法(有意差を調べる)」に属するものでした。一方,相関係数は,「類似の統計法(変数間の類似性を調べる)」に属するものですが,類似の統計法に属する統計法にも,実に様々な種類があります。 私自身もその全てを知っているわけではありませんが,代表的なものについては以下のような整理をしています。 統計法を使い分ける基準の一つに「データの種類」があります。これまでの質疑応答で,「データの種類」の重要性がおわかり頂けたと思いますが,相関係数に関する質問も実はこの視点を使うことで,かなりすっきりと整理することができます。 データの種類は,間隔(&比率)尺度,順序尺度,名義尺度とに分かれます(詳細は,手持ちの統計法の教科書を参考にして下さい)。ところで,相関係数を初めとする類似性の統計法は,ある変数とある変数との関係性を調べるものです。ということで…… 間隔尺度×間隔尺度の類似性:ピアソンの積率相関係数 順序尺度×順序尺度の類似性:  スピアマンの順位相関係数(但し純粋な順位相関ではない)  ケンドールの順位相関係数(純粋な順位相関) 名義尺度×名義尺度の類似性:  クラメールの連関係数(名義×名義の一般的類似性)  コンティンジェンシー係数(一般的類似性だが,解釈法に問題があるため,あまり使用されない)  φ係数(カテゴリが2×2表の場合に使用可能)  ※「ケンドールのτ」については知りません。 こんな風に,統計法を使い分けるための「視点」としてどのようなものがあるかを編み出すと,意外と整理できるようになりますよ?

maro77
質問者

お礼

selfer様、毎日丁寧にご回答頂きまして本当にありがとうございます。 やはり自分で独学で勉強するのも重要ですが、恥ずかしがらずに人に聞くというのも大切であり、なおかつ、ものすごく頭に入るので忘れません。スピアマンやケンドール、マンホイトニー、クラスカル・ウォリスなどという言葉が、今はすらすらと口から出てくるようになってきました。笑。 本当にありがとうございます。 さて、いろいろと質問ばかりしてしまい、大変恐縮なのですが、最後にある変数とある変数との関係性について教えてください。 ●間隔尺度×間隔尺度の類似性  →ピアソンの積率相関係数 ●順序尺度×順序尺度の類似性  →スピアマンの順位相関係数(但し純粋な順位相関ではない)  →ケンドールの順位相関係数(純粋な順位相関) ●名義尺度×名義尺度の類似性  →クラメールの連関係数(名義×名義の一般的類似性) ここまでは納得です。 ●順序尺度×名義尺度(または、間隔尺度)の場合  →これは、スピアマンの順位相関係数を利用してよいのでしょうか?たとえば、アンケート結果から得られた「順位性データ」と属性情報で得られた「職業分類データ」の場合の相関を求めたい時です。 また、確認ですが、ケンドールの順位相関係数を利用する場合は、アンケートの設問1の結果から得られた「順位性データ」と設問2の結果から得られた「順位性データ」がある時に、その回答の相関を見るために利用すべきものと理解しましたがよろしいでしょうか? さらに、 ●間隔尺度と名義尺度の場合  →これは、何を使えばよいのでしょうか?例えば、間隔尺度である身長と「スポーツ」という名義で相関を取ろうとした場合、どうすればよいのですか? 細かなところを聞いてばかりで申し訳ございませんが、再度お教え頂ければ幸いです。 宜しくお願い致します。

  • selfer
  • ベストアンサー率76% (104/136)
回答No.4

再度登場です. ローデータ(1),(2)を準備されたとありますが,これらの変換前のデータは【全く同じ】ですね? > このふたつの結果が違うのです。 そりゃ違ってもおかしくないです.同じ有意性になると考える根拠がありません. No2で回答したように,異なる検定法である以上,いくら同じデータであっても,異なる結果が導かれるのは普通のことなのです. それを踏まえた上で > これは、どちらを優位なものとして扱えばよいのでしょうか? 質問者様が「順位性データ」に対してどのように考えているかによります. ○変換法1にもとづきχ2検定(独立性の検定) 1 すごく△△である → 【1】 / 2 少し△△である → 【2】 3 少し△△ではない → 【3】 / 4 全く△△ではない → 【4】 5 どちらでもない → 【5】 ○変換法2に基づくクラスカルウォリス検定 1 すごく△△である → 【+2】 / 2 少し△△である → 【+1】 3 少し△△ではない → 【-1】 / 4 全く△△ではない → 【-2】 5 どちらでもない → 【±0】 回答を見ると「すごく(である)→少し(である)→どちらでもない→少し(ではない)→全く(ではない)」という【順序性】が見られる……と,【私は思います】. 質問者様はどう思いますか? もし,思うのであれば,このデータは順序性のある「順位データ」であるとして処理する方が適切なわけです.順位データとして処理する検定法……これが,マンホイトニー検定&クラスカルウォリス検定です. もし,思わないのであれば,順序性を仮定しない,カテゴリデータとして処理する必要があるわけです. 要するに,「あなたの血液型は何ですか?」に対する回答として,「A型 → 【1】」,「B型 → 【2】」,「AB型 → 【3】」,「O型 → 【4】」のように【便宜的に数値を割り当てるのと同じなわけです.この例で言えば,数字的には【1】<【2】<【3】<【4】ですが,だからといって,それに対応して,A型<B型<AB型<O型という順序性が血液型にあるわけではありませんよね? 別に「A型 → 【4】」「O型 → 【1】」と交換しても全く構いませんよ? 数字そのものに意味はないのですから…… このように,割り当てた数字に,順序性の意味が付与できないと仮定する場合には,単なるカテゴリデータとして処理する必要があります.そして,この場合には,順序性を考慮した検定法を使うのは【誤りです】(強引に実行しても意味がある結果にならない).あくまでも,潤受精に対応した検定法とは,データに順序性があることが前提となるわけですから…… もう一度お聞きします. > これは、どちらを優位なものとして扱えばよいのでしょうか? 質問者様は,データの「とても」「少し」などのデータを順序性のあるデータとみなしますか? みなさずにカテゴリデータとして処理しますか?

maro77
質問者

お礼

selferさん、丁寧な回答ありがとうございます。 本当にわかりやすく、統計が楽しくなってきました☆ >質問者様は,データの「とても」「少し」などの >データを順序性のあるデータとみなしますか? みなします。したがって、マンホイトニー検定&クラスカルウォリス検定を利用します。 しかし、設問によって、順序データではないものも含まれております。その場合は、設問によって、χ2検定を使ったりしてもよいのでしょうか?ひとつのローデータに対して、検定方法を統一しなくてもよいのかという疑問があります。 また、相関係数について質問があります。(この場でする質問でなければお許しください) 相関係数には、ピアソンの積率相関係数、スピアマンの順位相関係数、ケンドールの順位相関係数の3種類あることを知りました。さらに、属性相関係数というのもあり、こちらにはクラメールの連関係数、ファイ係数、コンティンジェンシー係数、ケンドールのτとかありました。 これらは、どうゆう基準で使いわければよいのでしょうか?いろいろ調べたのですが、いまいち、頭の中のモヤモヤが晴れません。 お手数ですが、再度、ご教示頂ければ幸いです。 宜しくお願い致します。

  • backs
  • ベストアンサー率50% (410/818)
回答No.3

 申し訳ありませんが、私には最終的に何が分からないのか(何を質問したいのか)よく分からなかったのですが、 >独立性の検定において、関連性があると出ているのに、マンホイットニー又はクラスカルウォリスの検定においては違うと出てしまいます。 検定の方法(データの分析方法)が違う訳ですから、結果が変わるのも当然のことではないでしょうか。そもそも、カイ二乗検定とマンホイットニーのU検定、クルスカルワリスの検定は、(最終的に求めるものが)別のものです。 >カイ2乗検定がノンパラメトリック検定に属するものであるならば、カイ2乗検定の結果はノンパラメトリックの検定の結果に含まれると考えてはだめなのでしょうか? カイ二乗検定はノンパラメトリック検定のうちのひとつです。ノンパラメトリック検定は正規分布が保障されていなくても良い検定のことを総称してこのように呼んでいます。 >・・・意識の違いの因子を洗いだそうとしております。 質問からは分かりかねますが、カイ二乗検定などでは特定の因子や因果関係を見出すことはできないのでは?因子分析などを用いるのではないでしょうか。

  • selfer
  • ベストアンサー率76% (104/136)
回答No.2

こんにちは. No1さんが回答されているように,一言でノンパラメトリック検定にも幾つかの種類があります(なお,この場合のノンパラメトリック検定とは,名義尺度・順序尺度データの分析法という意味で使います). そして,それぞれの検定法において計算思想(それに基づく計算式)が異なりますので,基本的に異なる検定法では異なる結果が導かれると考えるのがよろしいでしょう. さて,質問者様は主として,独立性の検定(χ2検定)と,マンホイトニー検定&クラスカルウォリス検定とを同時に使われているようですね. これらの検定法は,適用できるデータがそもそも異なります.独立性の検定とは名義尺度(カテゴリデータ)に対して使うもの,マンホイトニー検定&クラスカルウォリス検定は順序尺度(順位データ)に対して使うものです. 上記のように適用できるデータが異なりますので,データの種類に応じて,適切に検定法を使い分ける必要があります. さて,χ2検定とマンホイトニー検定&クラスカルウォリス検定とを「同じデータ」に対して使っているということは…… Q:○○についてあなたは△△だとおもいますか? A:すごく△△である,少し△△である,ほとんど△△ではない,全く△△ではない ※ポイントは「すごく」~「全く」などのように程度の段階が設定されている点 このような質問の回答(A)データを分析していると言うことでしょうか? そして,便宜的に「すごく=4」~「全く=1」と順位得点を与えているのではないでしょうか? この場合,順位データとして分析するのであれば,マンホイトニー検定&クラスカルウォリス検定を使うのが適切な方法となります. 一応,独立性の検定(χ2検定)を使って分析することもできますが,その場合,順位性の情報をすっぱりと切り捨てることになります. このように,基本的にはデータの種類に応じて,適切な検定法というものが推奨されているわけです. 形式的に,推奨以外の検定法を使うこともできますが,その場合,当然,推奨された検定法とは結果が異なります. なので,独立性の検定で有意であったから,別の検定法でも有意であるとは,基本的には,言えません(おおよその傾向性というものはありますが,今回の質問では,この傾向性を考えると混乱してしまいます).

maro77
質問者

お礼

selfer様、ご丁寧な回答ありがとうございます。 私の言いたいことも理解して頂いたようでして、大変感動しております。 >Q:○○についてあなたは△△だとおもいますか? >A:すごく△△である,少し△△である,ほとんど >△△ではない,全く△△ではない >※ポイントは「すごく」~「全く」などのように >程度の段階が設定されている点 >このような質問の回答(A)データを分析していると >言うことでしょうか? そして,便宜的に「すごく >=4」~「全く=1」と順位得点を与えているので >はないでしょうか? 全くそのとおりです。 今手元には、ローデータとして、2つ準備してあります。 ひとつは、 1 すごく△△である 2 少し△△である 3 少し△△ではない 4 全く△△ではない 5 どちらでもない という選択肢にしたため、入力時に選択肢の番号をそのままいれたローデータ(1)。 ID  設問1 設問2・・・ 1   3   5 2   2   5 3   3   4 4   1   5 5   5   4 ・ ・ ・ 1000  1   5 もうひとつは、 1 すごく△△である を+2 2 少し△△である  を+1 3 少し△△ではない を-1 4 全く△△ではない を-2 5 どちらでもない  を 0 として置き換えたローデータ(2)。 ID  設問1 設問2・・・ 1   -1  0 2   1   0 3   -1  -2 4   1   0 5   0   -2 ・ ・ ・ 1000  2   0 ローデータ(1)ではχ2検定をしました。 ローデータ(2)ではマンホイトニー検定&クラスカルウォリス検定をしました。 このふたつの結果が違うのです。 これは、どちらを優位なものとして扱えばよいのでしょうか? もし、わかりにくいことがあれば再度メールを頂ければ幸いです。 お忙しいところ恐れ入りますが、ご教示頂ければ幸いです。 宜しくお願いいたします。

  • goma_2000
  • ベストアンサー率48% (62/129)
回答No.1

ノンパラメトリック検定にも色々ありますが、何を(どの検定を)使いましたか? 独立性の検定は、通常、カイ2乗検定を行うと思いますが、このカイ2乗検定はノンパラメトリック検定に属するものです。

maro77
質問者

お礼

早速のご回答ありがとうございます。 ノンパラメトリックの検定は、属性の種類(数)によって、マンホイットニーとクラスカルウォリスを使い分けてます。 独立性の検定において、関連性があると出ているのに、マンホイットニー又はクラスカルウォリスの検定においては違うと出てしまいます。 また、その逆もあります。 この違いがわかりません。 カイ2乗検定がノンパラメトリック検定に属するものであるならば、カイ2乗検定の結果はノンパラメトリックの検定の結果に含まれると考えてはだめなのでしょうか? 素人なもので、的はずれな疑問を持ってしまっていたら、申し訳ございません。 ご回答、頂ければ幸いです。 宜しくお願いします。

関連するQ&A