• ベストアンサー

確率統計:全体数の推定方法について

一部のサンプリングにより全体数を推定する方法を教えて下さい。 例えば、100m2の砂浜にランダムに大量のビー玉が散乱しているとします。 全部の個数を数えることは困難なので、1m2四方の枠を作って、任意の5箇所のみで数を数えます。 その結果が、 (1)100個 (2) 50個 (3)  5個 (4) 70個 (5)125個 だったとします。 単純計算すると1m2あたり71個になるので、それを100倍すると、全体で7100個のビー玉があると推定できます。 しかしながら、5箇所の数には大きくバラツキがありますから、別の5箇所で数を数えると全く違った答えになりそうです。 この場合、5箇所のバラツキ(標準偏差)を求めて、○%の確率で●●個~●●個と推定して良いのでしょうか? つまり、サンプルが正規分布していると仮定して良いのでしょうか? それとも、このような場合は正規分布していると仮定せずに他の方法で計算すべきなのでしょうか? わかりにくい質問で申し訳ありませんが、よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • at9_am
  • ベストアンサー率40% (1540/3760)
回答No.1

サンプル数が小さい場合、正規分布ではなくt分布を用います。 全体のビー玉の個数を M 個とすれば、区画数は100ですので、区画毎のビー玉の個数は平均 M/100(=m) 個です。また母分散σ^2とします。 サンプル数を n として、その平均値を m~ とすれば、m~は平均 m、分散 σ^2/n になりますから、母分散σ^2を、標本の分散 s^2 と推計すれば、(m~-m)/(s/√n) は自由度 n-1 のt分布に従います。したがって、t(1-a/2)をt分布の上側 (1-a/2) %点とすれば、 m~ - t(a) s/√n <= m <= m~ + t(a) s/√n の範囲に m は a %の確率である事になります。 今回の例の場合であれば、平均 70、分散 2137.5 であり、自由度4のt分布の90%区間は-2.13~2.13ですから、90 %の確率で 25.94~114.06 の範囲に平均 m はあります。 したがって 90 %の確率で 2594~11406 の間にあります。

ochiyan707
質問者

お礼

お礼が遅くなりましてすみません。 私が知りたかったことをズバリ回答していただきありがとうございます。 迷いが消えました。

すると、全ての回答が全文表示されます。

その他の回答 (1)

  • arcadia91
  • ベストアンサー率30% (4/13)
回答No.2

あなたの質問は、「サンプルデータが正規分布か否かを知りたい」ということですね。 ビー球が”本当に”ランダムにばらまかれているならば、正規分布と仮定してよいでしょう。しかし、自信を持ってランダムと言えないなら、正規性を検定したほうがよいでしょう。 私ならば、最低30箇所程度サンプリングして、Anderson Darling Normality Testをするでしょう(勿論、代表的な正規性検定方法は他にもいくつかあります)。 サンプルデータを(簡易な)統計ソフトに入力すれば、一瞬で解決します。簡易統計ソフトは無料で試用できますよ。 

参考URL:
http://www.analyse-it.com/anderson-darling-normality-test_y.htm     http://www.minitab.com/japanese/default.aspx
ochiyan707
質問者

お礼

なるほど、正規性の検定というものがあるのですね。 質問の主旨は、正規分布か否かを知りたい、ということではなく、与えられた条件から推定する際にどのような計算方法が適切か、ということでした。 ですので、求めていた回答はNo.1さんのもので問題なかったのですが、それとは別に、正規性の検定というものを知ることができてたいへん参考になりました。 遅くなりましたが、どうもありがとうございました。

すると、全ての回答が全文表示されます。

関連するQ&A