- 締切済み
[至急]t検定、相関解析 項目の数が膨大な場合
被験者数20人ほどから300ほどの異なる項目に関してデータをとりました。 この20人を2つの群、AとBに分けて、 この300ほどの項目に関して、どのような違いがあるか見たいときに、 対応のないt検定、p<0.05で有意性を見たいと思った場合に、 300項目の5%、つまり15個は項目数の多さからランダムに有意になってしまうということでしょうか? あるいはこの300ほどの項目間に相関があるかどうかを見たいときも、 15個の項目では、ランダムに有意になってしまうかもしれないのでしょうか? 項目数が膨大の場合に、どの項目が2群で差があるか、あるいは項目同士の相関の有無 を見るときにどのような解析方法をするのがふさわしいのでしょうか?
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- stomachman
- ベストアンサー率57% (1014/1775)
項目がどっさりだけどサンプル数がかなり少ない状況である。A,Bの間にどんな違いがあるか、あるいは(A, Bの区別を付けるという目的に於いて)項目間にどんな関連がありそうか。 これはいきなり検定を考えるよりも、A, Bをできるだけ旨く切り分けるような判別関数を構成する、というアプローチが良さそうな気がします。 特別な準備なしにやるとすると、ええと、まずはA,Bの区別なしにデータの因子分析をし、主要な因子2~3個に絞った因子空間を構成する。この空間にA, Bのサンプルを散布して、両者が分離できそうかどうか、ともかく観察する。散布結果があんまりぐちゃぐちゃ入り交じるようなら、その因子はゴミっぽいから無視して、他の因子を取り上げ、また散布図を描いてみる。観察の結果イケそうな気がするのなら、せいぜい数次元程度の因子を使った線形判別関数を構成してみる。(support vector machineというアルゴリズムが使えます。) 判別関数を眺めて、判別に主に寄与する項目がどれなのか、ドーデモ良さそうな項目はどれなのかを推測する。そして選別した項目だけを使って、またやってみる。 判別関数をさらに単純化していくわけで、この単純化作業は「次元(パラメータの個数)を減らしても、A, Bの区別を付ける性能がさほど落ちない(判別ミスをする頻度が余り増えない)」という風に進めたい。どこまで減らした所で止めとくかがポイントであり、その判断にはAIC(赤池の情報量規範)が使えるかも。 もし首尾よくここまでイケたとすると、「A,Bの区別」と近似的に同一視できるような、比較的簡単な判別関数が得られた。判別関数の構造を見れば、「A,Bの区別」に強く関連するような因子を構成する成分として、各項目がどのように判別関数に寄与しているかが分かるでしょう。
> 被験者数20人ほどから300ほどの異なる項目に関してデータをとりました。 項目数に対して被験者数が少なすぎではないでしょうか。 多重比較をしたとしても、今度は有意となる項目が出てこなくなりそうですね。 > この20人を2つの群、AとBに分けて、 > この300ほどの項目に関して、どのような違いがあるか見たいときに、 > 対応のないt検定、p<0.05で有意性を見たいと思った場合に、 > 300項目の5%、つまり15個は項目数の多さからランダムに有意になってしまうということでしょうか? 二つの群に差がなかったとしても、15項目程度は有意な結果が得られてもおかしくはありません。 相関の方も多分同じでしょう。 > 項目数が膨大の場合に、どの項目が2群で差があるか、あるいは項目同士の相関の有無 > を見るときにどのような解析方法をするのがふさわしいのでしょうか? 1.解析をする意義のある項目間に絞って解析する。 2.今回の実験を相関のありそうな項目のスクリーニングという位置づけにして、有意となった項目について、今回の結果から必要なサンプルサイズを設定し改めて実験を行う。 他に良い方法がありますかね? あと、「次元ののろい」について調べてみてください。