- ベストアンサー
この場合の相関係数と有意差について
統計初心者で教えていただきたいのですが、 ある研究で、22検体から得たデータを、ある基準に従って4段階に分類しました。(grade 1~4)各々に分類される検体数は以下の通りです。 grade n 1 0 2 1 3 6 4 15 この場合、gradeと標本数nには正の相関があるといえるのでしょうか? その場合は、どのような方法で行うのがよいのか、また、有意性も見るにはどのような検定を行えばよいのでしょうか。correl関数を使ってr値を出すのでしょうか? 基本的な質問かもしれませんが、ご教示ください。
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
gradeは分類の番号であって数量じゃないでしょう。「grade 3.2」なんてものがない以上、「相関」という概念を適用すること自体が間違いです。 ご質問の実験が、例えば「たまたま手に入った検体22個を調べた」というのじゃ、意味のある実験になっていません。おそらく、何らか、はっきり決まったある基準に従って選んだ検体22個を調べた筈です。(例えば、蛍光反応で陽性と判定されたグリオーマ組織22例、というのでも良いでしょう。) そこで、「基準に合致する検体」の集合を母集団とし、その中からランダムに1個サンプルを取ったときにそれがgrade4である確率をxとします。そして、xを推定することを考えます。 すると、この母集団の中からランダムにn個の検体を取ったとき、丁度m個がgrade4である確率P(m,n)は、二項分布 P(x,n,m) = (x^m)((1-x)^(n-m))(n!/m!/(n-m)!) に従う筈です。そして実際、22個のサンプルのうち16個がgrade4だった。こういうことが危険率 p 以上で生じるx、すなわち P(x,22,16) > p となるxを計算すると、 p = 2.5% のとき x=0.472~0.851の範囲、 p = 0.5% のとき x=0.399~0.893の範囲、 であることが分かります。ここで、「p = 2.5% のとき x=0.472~0.851の範囲」というのは、「xは0.472~0.851の範囲にある」という命題が誤りである確率が5%ある、ということです。 これが、ご質問のデータから推定できる「基準に合致する検体がgrade4である確率」xです。
その他の回答 (3)
- backs
- ベストアンサー率50% (410/818)
他の回答者さんの意見をみて気づいたのですが,gradeというのはいわゆる被験者番号みたいなものに過ぎなかったのですね。だとしたら,gradeとnの相関を私の提示したように出すのは間違いですね。 大分ボケてました。。。
お礼
backsさん。 こちらのデータの提示の仕方がまずかったです。 今後質問する際は、もっと具体的、わかりやすく書くようにいたします。 ご回答ありがとうございました。
- stomachman
- ベストアンサー率57% (1014/1775)
ANo.2のコメントについてです。 「grade 1, 2, 3, 4」の数字はただの記号に過ぎず、代わりに「grade 赤、白、青、黒」と呼ぶ事にしても構わない。こう考えれば、「gradeの数字が大きいほど」という表現は全く意味を失い、ご質問は単に、「『サンプル数の多さは、黒、青、白、赤の順である』と言えるかどうか」というだけのことです。 で、「サンプル数の多さは、黒、青、白、赤の順である」とは、 (1)「母集団中のサンプルがgrade 黒である確率はgrade青である確率より大きい」 (2)「母集団中のサンプルがgrade 黒である確率はgrade白である確率より大きい」 (3)「母集団中のサンプルがgrade 黒である確率はgrade赤である確率より大きい」 (4)「母集団中のサンプルがgrade 青である確率はgrade白である確率より大きい」 (5)「母集団中のサンプルがgrade 青である確率はgrade赤である確率より大きい」 (6)「母集団中のサンプルがgrade 白である確率はgrade赤である確率より大きい」 という一連の命題の連言(ANDで繋いだもの)に他なりません。では、これらを評価するにはどうするか。 「母集団中のサンプルがgrade 黒である確率とgrade青である確率は同じだ」という帰無仮説を(ある危険率で)棄却できれば、(1)が言えます。 帰無仮説に従えば、黒か青のサンプルn個だけを見たとき、そのうち丁度m個がgrade黒である、ということが起こる確率Qは、 Q(n,m) = (n!/m!/(n-m)!) (0.5^n) と書けますから、Q(21,15)+Q(21,16)+…+Q(21,21)が危険率よりも小さければ、この帰無仮説は棄却できることになります。 この検定をやってみると、(1)~(6)のうち、言えない命題も出て来るかも知れません。例えば、(1)(2)(3)(4)(5)は言えたけれども(6)は言えなかったとすると、「grade 黒は他のgradeより多い。grade青はgrade赤、白より多い。」としか言いようがありません。 ところで、仮にgrade 1, 2, 3, 4という数字が何らかの意味で順番を持っていて(例えば、サンプル中の異常細胞が分化している度合いがこの順である)、しかも「順番が後のものほど、xが大きい」と言えたとしましょう。それが何を意味しているかというと、単に「母集団を作る際の基準がそういう性質のものであった」ということを意味している、それだけです。 例えば「新米の作業者AがサンプルN個の中からgrade 3のものだけを選別して22個のサンプルを得た。」という母集団の作り方をしたのかも知れません。そして「その22個のサンプルをベテラン作業者Bが分類し直した結果、表のような結果になった」ということだったとすると、 (i)「新米はgrade3とgrade4の区別をどのぐらい間違えたか」 (ii)「新米はgrade3とgrade2の区別をどのぐらい間違えたか」 (iii)「新米はgrade3とgrade1の区別をどのぐらい間違えたか」 ということが問われるべきでしょう。数字を赤、白、青、黒に置き換えてみても、話は全く同じです。(そしてこの場合なら、(1)~(6)ではなく(i)~(iii)をこそ検討すべきで、さらにその際に数値Nが不可欠です。)
お礼
stomachmanさん、御回答ありがとうございます。 grade間の比較をしてみます。 ご丁寧な説明で助かりました。
- backs
- ベストアンサー率50% (410/818)
提示されたデータにおいては高い正の相関がみられるようですよね(r = 0.9415545)。ただし,相関係数の有意性の検定を行ってみると,有意ではないようです(p = 0.05845 > 0.05)。 Excelのcorrel()で相関係数は出せます。有意性の検定はできないです。少なくとも分析ツールにそのようなものはない。 Rという無料の統計ソフトなら簡単にできます。例えば今回の例だと, grade <- c(1,2,3,4) n <- c(0,1,6,15) cor.test(grade, n) と画面に打ち込むだけですからね。それでも,相関係数と相関係数の有意性の検定については書籍を読んで勉強するべきではあるでしょうね。
お礼
ご丁寧な回答ありがとうございます。 やはりExcelでは有意性は検定できないのですね。 統計ソフトまで教えていただきありがとうございます。 もっと勉強したいと思います。
補足
stomachmanさん、ご丁寧な回答ありがとうございます。 確かにgradeはあくまで番号であって、数量ではありません。 「相関」を誤って解釈していました。 しかし、新たな質問ですが、 「gradeが上がるほど、それに対応するnも増える傾向にある」 ということを示したいときは、どのような統計学的手法を用いればよろしいのでしょうか。 重ね重ねの質問になり失礼ではありますが、ご教示いただければと思います。