- 締切済み
確率統計での検定の勉強の仕方について
確率・統計の1つのトピックとして検定があります。 たいてい、データがあり→ある仮説を立て→ある検定によってその正否を検討する、という流れのように思います。 データやそれに応じた仮説や推論というのは、人間の自由裁量の範囲だと思いますが、その仮説の正否を検定する方法が物凄く多いように思います。 短い○○検定だけでなく、長い名前の検定もあります。 自分が取得したデータとそれによる仮説を検定するのはどの検定方法なのかを知るにはどうしたらいいのでしょうか。 例えば、取得したデータの確率分布が○○分布に従うと言う仮設を立て、検定を行った結果、仮説が成立したとすると、それ以降そのデータは○○分布に従うということを前提として理論展開が進むと理解してよいでしょうか。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- kgu-2
- ベストアンサー率49% (787/1592)
>なぜそうするの 自分の経験で。数学がお得意で、数式だらけの教科書を読んでも頭痛がしない、というのなら、そんな教科書の読破が一番です。が、そんな人は、このような質問はしないと想うので。 何度もやっているうちに、これはこの方法、と分かってきました。論文や本を読んでいるうちに、似たような検定法に意識が行って知識が増え、なんとかなるようになりました。ですから習うより慣れろです。 統計学をする人は、数式できちんと証明している教科書で勉強する人もいるようです。しかし、私にはチンプンカンプン。標準誤差は、nでは無くn-1で割るとか、標準偏差と標準誤差との相違、相関係数と決定係数、などについて知りました。どちらを使うかは目的に応じて判断できると自負していますが、それで良いのかの証明能力はありません。しかし、論文の統計処理でクレームのついたことはありません。自分で理解している範囲しかしないからです。 テレビを見たい人が、テレビの仕組みを知って、それから電源ボタンを押す人は少ないと想います。とりあえず、リモコンを押しているうちになんとかなる。私は統計学やっているうちに、難しい多重比較をするのではなく、簡単なt検定などで処理できるように実験計画を組むようになりました。 >火星の表面に点在している岩石の大きさと硬度の相関の分布 単純に、x軸に大きさ、y軸に硬度をとり、散布図を描く。 大きさから硬度を推算したいのなら、回帰式を算出。因果関係を主張したいのなら、まず、相関係数の検定(他にも、時間性、普遍性、特異性、合理性の判定が必要)。データが偏っているのなら、U検定なんぞもありますが。 >既にデータが従うべき確率分布などが既知であるという意味でしょうか 既知であるように、収集する。ランダムサンプリングなら、正規分布を想定できます。 >全く予断を許さないデータを調べる場合 想定できないなら、データの分布を調べてから、というのもありです。正規分布だと、電卓の無い筆算の時代に正規確率紙を使う、と本で読みました。 平均値の差の検定の場合は、正規分布を要するt検定ではなく、分布に制限されないF検定とか、順位差検定を使う、ということになっています。有意差は、出にくくなりますが。 経験的なものもあるとか。預貯金残高は、正規分布しません。ですから、その平均値もt検定も間違いです。
- kgu-2
- ベストアンサー率49% (787/1592)
>自分が取得したデータとそれによる仮説を検定するのはどの検定方法なのかを知るにはどうしたらいいのでしょうか。 順序が逆。データを収集した時点で、検定法は決定済みのハズ。統計学は、検定法を考えた上で、データを収集すること、が基本です。 ですから、私は、t検定、F検定、カイ2乗検定、相関分析くらいの検定しかしません。それで検定できるように実験計画を立てます。それくらいの検定なら、適否は分かりますが、それ以上の複雑・難解な検定は理解できないからです。そして、ある統計の教科書によると、この4種で8割の論文は検定しているとのこと。ですから、私には、この4種で十分ですし、これでカバーできないような計画はしません。 >それ以降そのデータは○○分布に従うということを前提として理論展開が進むと理解してよいでしょうか。 例えば、検定法としてt検定を選択するなら、データは正規分布をするように収集します。正規分布が想定できないなら、F検定とか先に検定法を決める必要があります。また、2群ではなく、3群になると多重比較なんぞの理解しがたい検定法を求められます。 データがあるのでなんとか、というのは誤り。現実には、なんとかなる場合が少ないので、「何とかして」という書き込みも目立つのですが。現実には、習うより慣れろで、数をこなしているうちに、他人様の真似をしてできるようになります。
お礼
回答有難うございました。 検定法が先にあって、それに応じたデータの収集方法が決まるというところが非常に重要だと思いました。 データを収集する前から検定法が先にあるということは、既にデータが従うべき確率分布などが既知であるという意味でしょうか。全く予断を許さないデータを調べる場合、どういう風に考えるのかな?とも思いますが。火星の表面に点在している岩石の大きさと硬度の相関の分布などです。それとも統計解析というものは、そのようなものに適用するのではないのかも知れませんけれども。 ”習うより慣れろ”とのことですが手法に習熟する場合はそれでもよろしいと思いますが、なぜそうするのかについては、答えてくれないように思いますが。