• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:次のような場合に適した統計手法を教えてください)

統計初級者が適切な統計手法を選択する方法

このQ&Aのポイント
  • 統計初級者が適切な統計手法を選択するためには、質問の本題であるB.平均生活満足度×家族の分析方法を考える必要があります。
  • 具体的には、サンプルサイズが異なる場合にどのような処理を行うか、検定手法の選び方などについて検討する必要があります。
  • また、データの分布なども考慮しながら適切な統計手法を選択することが重要です。統計初級者には、統計学の基礎を理解しているだけでなく、実際のデータに対して適切な分析手法を選択する能力が求められます。

質問者が選んだベストアンサー

  • ベストアンサー
noname#227064
noname#227064
回答No.1

> 実際には、5000人のデータを取得しているにも関わらず、 > 300人ぐらいのデータでも、同じ平均が出てきたら同じ結果になってしまうかと思います。 同じ平均が出てきたら、確かに同じ回帰曲線が得られるでしょうが、人数が多いなりの価値があります。 例えば、家族人数が一人のときの生活満足度の分布が平均がμ、分散がσ^2とします。 家族人数が一人の場合で5000人のデータが集まれば、平均生活満足度の分布の分散は(σ^2)/5000ですし、300人のデータなら(σ^2)/300です。 平均生活満足度の信頼性はそれだけ上がります。 (調査のコストに見合うかどうかは別にしてます) > それぞれのサンプル数が、500人いる場合とで、 > サンプル数が10人いる場合とで、行うべき検定等の手法が異なってくるのではないかと思うのですが、 > この場合、どのような処理を行うのが適切なのでしょうか。 サンプル数というよりサンプルサイズ(標本の大きさ)というべきですが、サンプルサイズが大きい場合は正規分布等に近似できることがありますので、その結果、検定方法が異なるように見えるだけです。

compequal
質問者

お礼

お礼遅くなりました。   非常によくわかりました。(そして、自分が何をわかっていなかったかがわかりました…!) ありがとうございます。

その他の回答 (2)

  • ramayana
  • ベストアンサー率75% (215/285)
回答No.3

以下は、回答でありません。回答は、 ANo.1 さんや ANo.2 さんでほぼ完結していると思います。ただ、ご質問にいくつか気になることがあったので、突っ込ませてください。統計は、数学以上に常識的感覚が重要なので。 なお、「調査の中身自体は全く違いますが」とあるので、本当は生活満足度と家族人数の調査でないのかもしれませんが、生活満足度と家族人数の話とします。調査の中身を抜きにして適切な分析手法を語るのは難しいです。 1 「調整済み決定係数は、0.1未満…。正直、かなり弱い相関で、今ひとつインパクトに欠けるデータです。」について この評価には、違和感があります。生活満足度を規定する要因は様々で、仮に家族人数が要因の1つだったとしても、説明力が小さいだろうということは、容易に想像されます。その前提で眺めると、相関係数が -0.16 (決定係数で 0.02~0.03 =生活満足度の分散の 2~3 %が家族人数で説明される)もあるというのは、それなりに大きいというのが実感です。 なお、分析手法は、知りたいことが最もよくわかるように選ぶものです。インパクトのある結果を求めて分析手法をいじるのは、邪道だと思います。 2 分析手法について 「生活満足度と家族人数に関係があるか?」という問題意識ならば、回帰分析が普通の手法だと思います。説明変数にかかる係数の大きさや t 値(又は p 値)が判断材料になります。決定係数は重視されません。 また、回帰分析を行うにしても、直線的な関係でないかも知れないので、家族人数そのものを説明変数にするのでなく、家族人数2人、家族人数3人、家族人数4人以上のそれぞれに応じたダミー変数を説明変数にするのがよさそうです(多重共線を防ぐため家族人数1人に対応するダミー変数は使わない)。サンプルサイズが 5,000 もあるので、説明変数を 1 個から 3 個に増やしても、たいした支障はないでしょう。 3 Bのデータについて このデータは、かなり怪しいです。こんな綺麗なデータなら、どんな検定方法を使っても、ほぼ確実に有意と判定されるでしょう。統計的に有意と判定される典型的なケースとして、次のものがあります。 (1) 生活満足度と家族人数に何らかの関係がある。 (2) 偶然性を壊す何らかの恣意的操作が行われた。 B については、 (2) が疑われます。「生活満足度」は具体的にどんな文言で質問したのか、それが定性的な回答を求めていたのならどのように数値化したのか、どんなサンプリングをしたのか、捏造はないか、等をチェックする必要がありそうです。 4 年齢等をコントロールする必要 チェックの上で生活満足度と家族人数に統計上の関係が確認されたとしても、因果関係があるなどという結論に飛びついてはいけません。一般に、生活満足度も家族人数も年齢と相関があることが知られています。最低限、年齢をコントロールした分析が望まれます(年齢も説明変数に加えるなど)。できれば、仕事、収入、資産、健康状況、配偶関係、居住地などもコントロールすべきでしょう。

compequal
質問者

お礼

統計に未熟な人間に対する、とても丁寧なコメントをいただき感謝です。 >調査の中身を抜きにして適切な分析手法を語るのは難しいです。 仰るとおりです。いろいろと、前提の話を変えてしまって申し訳ありません。 >相関係数が -0.16 (決定係数で 0.02~0.03 =生活満足度の分散の 2~3 %が家族人数で説明される)もあるというのは、それなりに大きいというのが実感です。 なるほど。調査自体はまったく違うのですが、同じ内容の調査だとすれば、おっしゃられることはその通りだと感じました。 >なお、分析手法は、知りたいことが最もよくわかるように選ぶものです。インパクトのある結果を求めて分析手法をいじるのは、邪道だと思います。 申し訳ありません… ただ、統計学び中の身分ですと、そもそも、「知りたいことが最もよく分かる」ための統計手法に何と何があるか、というバリエーションも十分理解できていない状況ですので、正攻法のバリエーションと、邪道な分析手法のいじり方の差もわかっていない段階です。 >説明変数にかかる係数の大きさや t 値(又は p 値)が判断材料になります。決定係数は重視されません。 ありがとうございます! そうなんですね。勉強になります。 >それぞれに応じたダミー変数を説明変数にするのがよさそう おお!ダミー変数ですか…!使ったことがないのですが、ダミー変数はよくよく考えて使わないと、それこそ、邪道っぽい感じがするのですが…、よくよく調べてやってみたいと思います!ありがとうございます。 >3 Bのデータについて あー、これはわざわざツッコミをいただいてすみません。 話をわかりやすくするために、数値をやたらときれいにしてしまいました。 実際のデータは、きれいな右下がりのデータではあるのですが、もうちょっとバラけています。 サンプリングには、かなり気をつけて無作為抽出に近づけるようにしたのですが、それでもサンプリングバイアスがいくつか問題があることがわかり、どのぐらいサンプリングバイアスがきつくかかっているかどうかを、確認中です。 その上で… >4 年齢等をコントロールする必要 なのですが、他にも説明変数を取得していますので、事後的になってしまいますがですが、統制群をつくって処理することができそうです。 というか、ご指摘をいただいて、そうだよな、本当にそのとおりだよな…と思いながら、再度、処理をしようと思えてきました。 ご指摘あらためて感謝です。

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.2

回帰分析がお分かりになるということなので、ならば、x=「家族の人数」、y=「生活満足度」として、5000個のデータを全部使って一次式   y = ax + b による回帰分析をしてみて下さいな。(これならA, Bの区別は無用ですし、x=1の場合とx=7の場合のnの違いもきちんと織り込まれます。)そして、係数a, bが従う分布の分散を計算します。  次に、5000個あるデータのうちから50個をランダムに抽出して、同じことをやってみます。すると、サンプルが多いとaやbの分散が小さくなることが分かるでしょう。  いや、もっと簡単な例で考えるのが良いかな?  同じモノの重さをn回測定したデータt[j](j=1,2,…,n)があるとします。ただしt[j]は測定ごとに独立で、平均m, 標準偏差σの正規分布に従うものとします。0次式   t = c を使って回帰分析をすると、もちろん   c = (tの平均値) という答が出る訳ですが、このcがmに等しいわけではない。係数cも正規分布に従い、その分散は1/nに比例します。つまり、nが大きいほど、cの精度が高くなる訳です。

compequal
質問者

お礼

ありがとうございます!

関連するQ&A