- ベストアンサー
統計の検定と信頼区間について
統計学で検定,信頼区間について勉強しています。 参考書を読んで理解に努めているのですが,どうもよく分かりません。 <信頼区間> http://dl.cybernet.co.jp/matlab/support/manual/r2007/toolbox/matlab/data_analysis/?/matlab/support/manual/r2007/toolbox/matlab/data_analysis/bqm3cio-1.shtml 上記リンクにおける2次多項式の信頼区間について, 信頼区間とは,データを発生した真の回帰式のパラメータに対して, 推定したパラメータがどれだけ信頼できる値であるかを示しているという 解釈でよろしいのでしょうか? <検定>(http://case.f7.ems.okayama-u.ac.jp/statedu/hbw2-book/node9.html) 回帰における検定で,回帰係数の真の値がゼロでないかどうかを調べる とあるのですが,なぜこれを調べるのでしょうか? また,検定は上記の信頼区間の推定とどう関っているのでしょうか?
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
#2です。 >> 信頼区間とは、その内側に真の値があると仮定した場合には、その帰無仮説が棄却されないような区間です。 > 信頼できる区間内に真の値があるということは,もともとの仮説を否定した仮説である帰無仮説は棄却されるのではないのですか? 「信頼区間の中に真の値がある」とする「帰無仮説」は棄却されません。実は、それが「信頼区間」の定義そのものだ、と言っても差支えがないでしょう。 検定することと、信頼区間を求めることは、兄弟のようなものです。検定は、1つの仮説を立てて、それが棄却されるかどうかだけを調べます。信頼区間を求める、ということは、無数に多くの仮説を検定して、どこを境目として検定結果が分かれるのかをさぐることと同じです。 実際には無数回の検定を実行するわけではありません。信頼区間を-∞から+∞までずっと眺めて行くと、多くの場合「棄却される域」~「棄却されない域」~「棄却される域」のサンドイッチ構造になります。この中央にある「棄却されない域」が「信頼区間」です。
その他の回答 (3)
- rabbit_cat
- ベストアンサー率40% (829/2062)
>>”予測された応答における”信頼区間 は,推定したパラメータから計算されるy^が真の値yを表すのに どれだけもっともらしいか,つまり,y^ がyの予測値として信頼できる領域 >ということで >>>”回帰係数”自体の信頼区間 >真のパラメータに対して,推定したパラメータ(切片,傾き)がもっともらしい領域 >という理解でいいのでしょうか? >そうすると,「”予測された応答における”信頼区間」と「”回帰係>数”自体の信頼区間」が同じになりそうなイメージがもてるのですが・・・。 理解(前半部)はまあ正しいんだと思いますが、そこから、何故この2つが同じになりそうというイメージが沸くのかがよく分からないです。 全く別のものですよ。 たとえば、母集団が Y = aX + b + N という関係を持っていたとすると、(Nは正規分布に従う乱数) たとえ、回帰係数の真の値(aとb)を知っていたとしても、回帰式 Y' = aX + b で計算したY'と真の値Yの間には、Nの分だけ誤差が残るでしょう。
お礼
そうですね,ノイズを考える必要があるのですね。 自分の理解不十分でした。
- Ishiwara
- ベストアンサー率24% (462/1914)
【信頼区間】 <どれだけ信頼できる値であるかを示す、という解釈でよいか?> この表現自体が非常に不明確です。実に信頼区間の定義は説明しにくいのです。 説明の一つの試み: 信頼区間とは、その内側に真の値があると仮定した場合には、その帰無仮説が棄却されないような区間。裏返せば、その外側に真の値があると仮定した場合には、その帰無仮説が棄却されるような区間。 【回帰における検定】 <回帰係数の真の値がゼロでないかどうかを調べるのはなぜ?> 「真の値がゼロ」つまり「xとyはもともと何の関係もない」場合であっても、回帰係数を計算すると、ほとんどの場合ゼロでない数値が得られます(これは自然のバラツキによるものです)。 しかも、回帰係数は、xに対するyの「傾き」を指すのであって、「大きければ関係が強い」ということにはなりません。 そこで「関係の強さ」は別の観点から調べないといけません。具体的には「xとyは無関係」という帰無仮説が棄却されなければ、係数を算出しても意味がない、よいうことが言えます。
補足
>>信頼区間とは、その内側に真の値があると仮定した場合には、その帰無仮説が棄却されないような区間 信頼できる区間内に真の値があるということは,もともとの仮説を否定した仮説である帰無仮説は棄却されるのではないのですか? http://www.kisc.meiji.ac.jp/~hirukawa/randomevent/test1.htm つまり,http://case.f7.ems.okayama-u.ac.jp/statedu/hbw2-book/node9.html の式(1.24)(1.25)から信頼区間を求めることで検定をすればよいということですね?
- rabbit_cat
- ベストアンサー率40% (829/2062)
<信頼区間>について おそらく正しくないです。 そのページに書かれている信頼区間は、そのページに書いてあるように、 ”予測された応答における”信頼区間 でしょう。 これと、 ”回帰係数”自体の信頼区間 は全く別の話です。 「おそらく」と書いたのは、Matlab のpolyfit等の中身の詳細を知らないため、そのページの字面だけで判断したので。 <検定>について そのページにも書いてあるように、 「ある特定の説明変数が目的変数の予測に役立っているかどうか」 は、興味の対象になることが多いです。 「オッカムの剃刀」 http://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%83%E3%82%AB%E3%83%A0%E3%81%AE%E5%89%83%E5%88%80 ていうように、なんか物事を説明するとき、単純なモデルほどよいモデルなんです。 極端な話、パラメータを100個とか1000個とか、増やしていけば、回帰誤差はどんどん減っていくでしょうけど、それでなにか説明したことになっていますか、ということです。 回帰係数が0ってことは、そのパラメータは、その出来事を説明するのに必要ではない、ってことがわかります。
補足
>>”予測された応答における”信頼区間 は,推定したパラメータから計算されるy^が真の値yを表すのに どれだけもっともらしいか,つまり,y^ がyの予測値として信頼できる領域 ということで >>”回帰係数”自体の信頼区間 真のパラメータに対して,推定したパラメータ(切片,傾き)がもっともらしい領域 という理解でいいのでしょうか? そうすると,「”予測された応答における”信頼区間」と「”回帰係数”自体の信頼区間」が同じになりそうなイメージがもてるのですが・・・。 検定についてのアドバイスを読ませていただいた理解として, 回帰における検定は,要するに主成分分析における寄与率を求めて不要な説明変数を削る作業ということでいいのでしょうか? また,検定と信頼区間をからませるためには,”回帰係数”自体の信頼区間を考えなければならないということになるのでしょうか?
お礼
回答ありがとうございます。 信頼区間と検定の関係が理解できました。