- 締切済み
統計・社会調査報告書の読み方(相関、重回帰、残差)
現在、政府統計の調査報告書を読んでいます。統計は初心者なので、文章での分析結果の後に出てくる統計の結果表示の表す数値を、どう評価していいのかが分かりません。rやnというアルファベットの意味自体は調べれば分かるのですが、それをどう評価すべきなのか、理解できないということです。文章のみを信じるのも方法ですが、読むからには内容を理解したいと思います。恐縮ですが、初心者なので以下の具体的な文章を例にとって説明(回答)していただけると大変ありがたいです。 ちなみに、「(社会)調査報告書の読み方」のようなテキストを探したのですが見当たらず、現在は、青木氏やhttp://aoki2.si.gunma-u.ac.jp/FlowChart/Tutorial.html中澤氏http://phi.med.gunma-u.ac.jp/oldlec/social_stat.html、その他を参照にしていますが、自ら分析・検定するわけではないので、報告書の「読み方」に必要な知識を得たいと思っています。 例1 「回答率と被害率との関係はないことが判明した(r=0.04;n=28)」 質問:rが相関係数で、中程度から弱い正の関連があり、nがある程度大きくないとrが大きくても相関関係があるとはいえないことは分かるが、n=標本数が28ということは、どう評価すべきか?またnが他の数値だった場合どうか? 例2 「3つの予測因子を組み合わせることにより、被害率の差異の3分の1を説明できる(重回帰係数は0.50)」 質問:3分の1を説明できるならば、0.50ではなく、0.30ではないか?そもそも、上記で「重回帰係数」という言葉は、「重決定係数(R2)」と同じか?英語で言うと、R-Squareで、Multiple Regression Coefficientとは違う?その辺にも混乱があるのかもしれません。 例3 「Χ2(2)=34.510, p=0.000」 質問:カッコ内は、調整済み残差ですが、この場合、(2)をどう評価すればいいか?また、有意差があるというためには、p値だけ示せばいいと思うのですが、X2の数値(34.510)を出す意味は何か?ちなみに、当該例は、犯罪被害経験の有無と世帯人数の関係を見た検定結果ですが、p値は同様で、34.510が、19.659だった場合どう理解できるか? 長くてすみませんが、分かる方には情報があった方が説明しやすいと思いますので具体例を挙げました。どうかよろしくお願いします。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- kgu-2
- ベストアンサー率49% (787/1592)
>n=28という部分を見て、どういう理解を得るための指標とするものなのでしょうか? 検定では、有意差がないと、何も主張できません。nの数か多ければ、有意差を出しやすい、それだけのことです。もっといえば、有意差が見られない場合、データ数を増やせば見られたりすることも少なくありません。 医学会では、nの数が100は無いと、その主張には説得力が、なんぞと言いますが、有意差有りを実際にどのように解釈するのか、という話で、そこを混同する人(場合)もあります。 >「重決定係数(R2)」 単回帰のときは、r2乗は決定係数で良いのですが、重回帰の場合もそうであろうと。なんせ、統計学の数学を理解しようと思わないので、 >「重回帰係数」=「重相関係数」という理解でよろしいでしょうか? うっとおしいので、単回帰で。この場合、y=a+bx(r=)の式になります。この式の傾きであるbが回帰係数、rが相関係数です。 最後に、相関分析では擬相関、重相関分析では多重共線性の問題をクリアして下さい。
- kgu-2
- ベストアンサー率49% (787/1592)
>例1 「回答率と被害率との関係はないことが判明した 表現が誤りです。統計学では、この場合「無い」という表現は使えません。単刀直入に言えば、統計に関しては素人同然の人の表現です。私なら、以下の文章は読みません。こんな人がやった重相関なんぞは、数字をパソコンにぶち込んだけと想うので。 その人が見つけられなかっただけで、「別の統計を用いれば、相関が有意であることを示せる」と主張すれば、反論不可です。「相関は、認められなかった」などと、私はできなかった、と謙虚に表現します。 具体的には、相関分析の元になる散布図で、横軸を対数目盛りにすると、有意な相関がある場合が少なくありません。すなわち、データを対数変換すれば、有意な相関が認められられたりします。特に、社会的なデータだと、対数変換が有効な場合が多いのです。 >質問:rが相関係数で、中程度から弱い正の関連があり、 r=0.04なら、nを100であっても統計学な有意差は無いので、n=28なら「中程度から弱い正の関連があり」は誤りです。私の経験では、nが100もあれば、散布図で、『バラバラ」の印象でも、有意な相関があったりして、ビックリしたこともあります。 >nがある程度大きくないとrが大きくても相関関係があるとはいえないことは分かるが 理系の実験では、測定時に検量線を描きます(現在はパソコンですが、学生時代は手描きでした)。これは、相関分析とは意識せずに行う人がほとんどですが、n=5または6です。その代り、r=0.99はありますし、そうでないと測定がやり直しになります。相関が有意なものか否かは、ご理解されているように、データ数(統計学では自由度)に依存します。 >例2 「3つの予測因子を組み合わせることにより、被害率の差異の3分の1を説明できる(重回帰係数は0.50)」 相関係数の2乗を決定係数、別名寄与率といいます。この数値は、縦軸の事象を横軸の項目でどれだけ説明できるか、を示すそうです。なぜ2乗でいいのか、は数学的に説明できるそうですが、私には理解不能なので。 r=0.50(雑な表現、統計表は3桁が多い)の2乗は、0.25。四捨五入すれば0.3で3分の1に近づくが、「25%は、横軸の項目で説明できる」と書くのが妥当。ついでに書くと、75%は不明。すなわち、もっと重要な説明変数があるかもしれない、ということ。25%しか説明できないようでは、しかも、重回帰まで動員して。 私が論文の審査員なら、「もっと重要な因子について明らかにして下さい」と却下でしょうね。 >英語で言うと、R-Squareで、Multiple Regression Coefficientとは違う? Multiple Regression Coefficientfは、重回帰係数(大文字のRであらわすことが多い、回帰係数はrと区別?)。R-Squareは、その2乗です。 >例3 「Χ2(2)=34.510, p=0.000」 重回帰は、しないことにしているので、私の理解できるレベルではありません。でも、P=0.000なんぞがあるとは思えない。
お礼
回答ありがとうございました。勉強しながらなので回答の意味を理解するために時間がかかってしまいましたが、分かりやすい説明でした。 →例1について、「「相関は、認められなかった」などと謙虚に表現します。」はそのとおりだと思います。また、社会調査に対数変換が有用なことについては参考になりました。 有意差については、ご指摘のように私の質問自体が誤りでした。本によれば、rが、0.4だと、中程度から弱い正の相関があると書いてあったのですが、例での文章の場合は、0.04ですから、「ほとんど相関がない」と理解すべきでした。当該の数値感覚が身に染みていないので、自分の誤解に気づかなかったのだと思いますが、これで大体文章が理解できました。 ちなみに、nの大きさをここで明示するのは、どのような意味があるのでしょうか? 統計が分かる人は、n=28という部分を見て、どういう理解を得るための指標とするものなのでしょうか?また、(もちろん、調査の性質に依存すると思いますが)これは大規模な社会調査の分析なのですが、n=28とはどういう意味を持ちますか? 例2について、 >相関係数の2乗を決定係数、別名寄与率といいます。 →「相関係数」ではなく、「重相関係数」でしょうか? >r=0.50(雑な表現、統計表は3桁が多い)の2乗は、0.25。四捨五入すれば0.3で3分の1に近づくが、「25%は、横軸の項目で説明できる」と書くのが妥当。 →よく分かりました。そう考えると、例の文章は、不親切(適切)な表現を使っているのですね~ >Multiple Regression Coefficientは、重回帰係数(大文字のRであらわすことが多い、回帰係数はrと区別?)。R-Squareは、その2乗です。 →ということは、「重回帰係数」=「重相関係数」という理解でよろしいでしょうか?そもそも、「重回帰係数」という用語はあまり使用されていないようなので、この例文が変わっているでしょうか? 以上、分かる範囲で、教えていただけたらありがたいです。また、例3について分かる方、よろしくお願いします。
お礼
ありがとうございました。医学、統計学、社会学、、、様々な分野での統計分析方法や考え方があるので、私のような初学者には分かりにくいのかもしれません。今後も、回答お待ちしています。