- ベストアンサー
標本のサンプルサイズ
標本数20、標本分散s^2=10とする。 帰無仮説:s^2=σ^2、有意水準α=5%で検定する。 母分散σ^2=20である場合、帰無仮説が90%の確率で 棄却されるには標本数はいくつ以上にすればよいか? この問題がわからず困っています。資料を探してみたのですが、 正規分布に従う場合の母平均についてのサンプルサイズ決定法しか見つかりませんでした。考え方・計算法程度だけでも構いませんので、どなたか教えてください。
- みんなの回答 (6)
- 専門家の回答
質問者が選んだベストアンサー
(1) この過去問、もしホントにこの通りなら出題者が統計学を分かっていません。 > この問題(小問)の前で、「帰無仮説σ^2=10、対立仮説σ^2>10、α=5%で検定せよ」とあり、χ^2検定を行うと、帰無仮説が棄却されないという結果が得られるのです。 >「母分散が実は20だった。(母平均は35。)さきほどの検定結果はこの事実に反している。」 トンでもない!χ^2検定で帰無仮説が棄却されなかったということは「何も言えない」、すなわち結論が出ていないのであって、どんな事実にも反してなんかいません。検定の基本であり、しかも初学者がよく間違える所を出題者が間違えてどうする。 (2)まだ問題が明らかになっていない。というより多分、myanさんが見落としているのでは? χ^2検定を行うというのは、母集団の分布を仮定して初めて可能になります。ところが、分布が平均と分散だけで指定できる訳がありません。同じ平均と分散を持つ様々な分布が無限にある。すなわち、この小問以前に、母集団の理論分布がどんなタイプの分布であるかが分かるような設定があるはず。 (3)母平均なしで母分散だけ分かっている(難問・奇問)のか、両方分かっている(ごく普通の話)のかでは条件が全然違いますから、「なお、母平均は35となっていました。」という扱いじゃダメです。 また分布が連続値なのか離散的なのかによっても扱い方が違う。 というわけで、 ・問題全体をもう一度よく調べて、分布の型をはっきりさせること。 ・ホントに設問が変だったら、この問題は無視しましょう。試験に出たってクレーム付ければノーカウントに出来ます。
その他の回答 (5)
- motsuan
- ベストアンサー率40% (54/135)
答えはほとんど出ているのではないでしょうか? χ^2分布の定義に戻って考えればいいと思います。
- stomachman
- ベストアンサー率57% (1014/1775)
再度stomachmanです。 スジはmotsuanさんの仰る全くその通りだとstomachmanも思います。つまり、母集団の確率密度関数をf()とするとき、φ(n,g0)=多重積分 f(x1)...f(xn)δ(g(x1,x2,...,xn) - g0) dx1 ... dxn はgの値の確率密度関数である。(「gが平均のときは平面、分散のときは球面」てのは集合S={<x1,....,xn>|g(x1,x2,...,xn)=g0}のことで、これを使うと φ(n,g0)=多重積分(<x1,....,xn>∈S) f(x1)...f(xn)dx1 ... dxn と書いても良い。そういう意味ですよね。) fが既知なら、母集団から取ったn個のサンプルの分散s^2が幾らなのか、その確率密度関数φ(n,s^2)が決まりますから、累積確率P(n,a)=積分{y=0~a} φ(n,y) dyが決まる。5%の危険率なら、 P(n,a)が5%になるaの値a1(n)と95%になるaの値a2(n)を計算できる。 さて、もうひとつの母集団(確率密度関数hが既知)があって、サンプルn個は母集団fか母集団hか、どちらか一方からn個取られたものであるとする。どっちなのかを90%の精度で判定するには、幾つサンプルがあれば良いか?と、こういう風に話が進まなくちゃ。 ところが、この質問ではちょっと状況が違います。まず ●母集団の確率密度関数fについて分散以外は全く未知であるとしなくてはならないらしい。だからPは具体的に計算できず、上記の論法は使えない。分散だけ分かったってしょうがない。 ●「帰無仮説が90%の確率で 棄却されるには」という所。サンプルに関する何かの確率が計算できるためには、帰無仮説「サンプルは(ある既知の)確率密度関数h(x)を持つ母集団から取った」が必要(仮説「s^2=σ^2」じゃダメ)で、この質問の場合には、他に何の分布の話も出てこないのでh=fという話だと推察される。 だとすれば、この帰無仮説「サンプルは母集団fから取った」が棄却される確率とは、すなわち「母集団fから取ったサンプルを、誤ってその母集団に属さないと判断する確率」に他ならない。従って質問は『90%の確率でこの判断を間違えるにはサンプル数nを幾ら「以下」にすればよいか?』という意味になる???これはカナリ変 < ってそれは深読みしすぎ。 ●ひょっとすると帰無仮説の概念に多少混乱を生じていらっしゃるのではないかと推測してます。(違ってたらごめんなさい。) 帰無仮説は、検定に掛けられる具体的な結論が引き出せなくては役に立たない。そして棄却されたときだけしか、意味のある結論が出ない。 たとえば H:「これらのサンプルn個は平均m、分散vの正規分布N(m,v)をなす母集団からランダムに採られた」という仮説なら、たとえば「サンプルn個の平均値」の予想される分布を具体的に計算でき、それと実際の「サンプルn個の平均値」とを比較して検定を行える。その結果「Hが正しいとすると、こんな平均値が出る確率は非常に低い。だからHはほぼ確実に間違いだ。」という結論になるか、「Hが正しいとすると、こんな平均値が出る確率は結構高い。もちろん、H以外の仮説でもこんな平均値が出る確率が結構高くなるものは幾らでもある。だから、これ以上は何も言えない」という結論になるか。 一方、仮説H:「サンプルn個はある母集団(確率密度関数h)からランダムに選ばれた。hについては未知だが、hの分散はσ^2。」を考えているとする。hが具体的に分からないから、これ以上話が進まない。Hは棄却できず、何も言えない。これは使い物にならない仮説。(回答#2でhの例を出しました。) さらに、仮説H:「s^2=σ^2」を厳密に解釈すれば、「(サンプルの分散s^2がたまたまσ^2に合うとかいう話ではなく、)s^2=σ^2になるようにサンプルを選んだ」という意味です。この仮説から言えることは「s^2=σ^2の筈だ」だけであり、実際のs^2がσ^2と違った場合の結論は「s^2=σ^2になるようにサンプルが取れていない。間違えたのは誰だ!」、実際s^2=σ^2だったら「サンプルをちゃんと選んだのか、偶然合ったのか。どちらとも言えない」。これはもう確率・統計とは無関係の話です。
補足
先にstomachmanさんから頂いたご回答に対して、問題設定をすべて補足しておきました。質問の仕方があまりに悪かったことを重ねてお詫びします。あれだけでは統計的に意味を持たないこと、納得いたしました。 下の補足で述べた通りχ^2分布が出てくるため、混乱してしまって・・・。正規分布で考えて構わないのでしょうか?
- motsuan
- ベストアンサー率40% (54/135)
私はうる覚えですが以下のように理解していました。 間違っていたらごめんなさい。 母集団の確率分布 f(x) (xは確率変数)の形が与えられたとき (たとえばパラメータσを含むなんちゃら分布)、 事象が独立として x1, x2, ..., xn が起きる 確率は f(x1)f(x2)...f(xn) となります。 したがって、サンプルx1, x2, ..., xnの 統計量 g(x1,x2,...,xn) (たとえば平均や分散)を ある値 g0 としたとき、 取りうるすべての組み合わせについて f(x1)f(x2)...f(xn)について和をとれば それがある値g0をとる確率になるのではないでしょうか? つまり、式で表すと 多重積分 f(x1)f(x2)...f(xn)δ(g(x1,x2,...,xn) - g0) dx1 dx2 ... dxn (変数x1, x2, ..., xnの積分です。δ はデルタ関数です。 要は超曲面上で積分するということになると思います。 gが平均のときは平面、分散のときは球面) を計算すれば、その事象が起きる (サンプルの統計量gがある値g0となる) 確率が得られます。 あとは話をひっくり返して、 g0を測定した量として、 確率分布fのパラメータがある値をとらない確率を決めて そのために必要なサンプル数を決めればいいのではないでしょうか? 違うかな?
お礼
ご回答ありがとうございました。 質問そのものに問題があって、お手数をかけてしまいました。
- stomachman
- ベストアンサー率57% (1014/1775)
もし実務上出てきた問題だとすれば、情報不足?何かハナシを省略してませんか? (1) ホントに「母集団の確率密度を仮定しない。」という条件だとすると、例えば 母集団={分散10の正規分布に従う値}∪{ごく少数の、極度に大きい値}∪{ごく少数の、極度に小さい値} という分布でも母分散σ^2=20になりうる。そして母平均と母分散を保ったまま、「ごく少数」が母集団中に占める比率を幾らでも小さくできる。(その分「極度に大きい(小さい)値」の絶対値を大きくしてやれば良い。)従って、母集団からこの「ごく少数」を引き当てる確率は幾らでも0に近くなりうる。そういう母集団を用意することが可能です。 この状況では、本当に母集団から取ったサンプルでも、ほぼ100%の確率で誤って帰無仮説を棄却してしまいますから、検定という概念そのものが成り立ちません。 (2) 「標本数20、標本分散s^2=10とする。」の正確な意味が分からないです。1度だけ標本数20のサンプリングをしたらこうなった、というのでしょうか? (3) 「帰無仮説が90%の確率で棄却されるには」というのは?......「帰無仮説を誤って棄却してしまう危険率を10%以下にするには」というのなら分かるんですが、それについては既に「有意水準α=5%」と仰っているんだし。
補足
実務上のものではなく、机上の問題です。大学の講義の過去問です。 (2)はその通りです。(3)については、危険率を10%以下にするように問われていると思うのですが、問題はそのままでした。(1)ですが、確かに省略していた部分があります。この問題(小問)の前で、「帰無仮説σ^2=10、対立仮説σ^2>10、α=5%で検定せよ」とあり、χ^2検定を行うと、帰無仮説が棄却されないという結果が得られるのです。(実際の問題ではs^2=10.9となっていました。質問では10にしていますが、影響はないと思ったもので・・)そして、この問題で「母分散が実は20だった。さきほどの検定結果はこの事実に反している。では標本数をいくらにすれば、90%以上の確率で帰無仮説を棄却できるか?」と問われているのです。なお、母平均は35となっていました。状況設定等を省略しすぎて、回答者の方々をいろいろ困惑させてしまったことを、お詫びいたします。
直接的な回答ではありませんが、以下の関連質問の回答は参考になりますでしょうか? あるいは、 ・http://www.okweb.ne.jp/oshiete.php3?c=392 このページで「統計」と入れて検索して見てください。 更に、以下のサイトを参考に勉強してください。 ・http://w3.cc.nagasaki-u.ac.jp/contrib/Excel/excel1.html ・http://www16.freeweb.ne.jp/school/gucchi24/ ・http://stat.eco.toyo.ac.jp/~michiko/newfront/ch04/ ご参考まで。
お礼
いろいろと参考にさせていただきます。ありがとうございました。
お礼
なるほど、そうですか・・。もうこの問題にこだわるのはやめます。 統計、自分なりに基本から学びなおします。 ・・そもそも、質問の内容、タイトル間違いだらけ・・。それなのに何度もご丁寧にありがとうございました。