- ベストアンサー
統計的手法を用いた色の付いた粒の数の推定方法
- 統計的手法を使って、ある集団の色の付いた粒が規格の30粒以下であることを証明する方法はありますか?データから色の付いた粒の数を推定することはできるでしょうか?
- 10gの粒を計量し、その中から色の付いた粒を数える作業を69回行った結果のデータがあります。このデータを用いて、色の付いた粒が何粒になるか推定するための統計的手法を求めています。
- 統計に詳しくない方でもわかりやすい方法で、10gの粒から色の付いた粒の数を推定するための統計的手法を教えてください。
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
ワイブル分布の密度関数f(k)は次式で表されます f(k) = m(k-γ)^(m-1)/α*exp{-(k-γ)^m/α} ここに、m形状パラメータ、α尺度パラメータ、γ位置パラメータ http://www3.panasonic.biz/ac/j/control/relay/common/reliability.jsp 今k-γ=xと置くと f(x+γ)= mx^(m-1)/α*exp(-x^m/α) データとのエクセルによる適合(試行錯誤) セルA1にテキスト「定数γ」を入力。 セルB1にテキスト「定数m」を入力。 セルC1にテキスト「定数α」を入力。 セルD1にテキスト「サンプリング回数N」を入力。 セルA2に定数γを入力。 セルB2に定数mを入力。 セルC2に定数αを入力。 セルD2にサンプリング回数Nを入力。 セルA3にテキスト「着色粒数k」を入力。 セルB3にテキスト「k + γ」を入力。 セルC3にテキスト「WEIBULL」を入力。 セルD3にテキスト「規格化WEIBULL」を入力。 セルE3にテキスト「着色粒数頻度」を入力。 セルF3にテキスト「測定値」を入力。 A列のA5から以下に k=0~50(例)を入力。 B列のB5にk+γの式、=A5+A$2、を入力し、ドロップダウンでB55までコピー。 C列のC5にEXCELL関数、=WEIBULL(B5,B$2,C$2,FALSE)、を入力し、 ドロップダウンでC55までコピー。 セルC56にC列の総和、=SUM(C5:C55)、を入力。 セルD5に式、=C5/D$56を入力し、ドロップダウンでD56までコピー。 セルE5に式、=D5/C$2、を入力し、ドロップダウンでE56までコピー。 F列のF5からF55までオリジナルデータを入力。 C56を列に沿いプルしF56までコピー。 各セルの数字桁数は適宜調整のこと。 D列とE列の結果を使い、表示したい範囲でD列とE列を選び エクセルでグラフを描く。 パラメータの傾向に付いては下記URLを参考にする。 http://avalonbreeze.web.fc2.com/38_01_02_04_weibull.html γ=2.4、α=4、m=1.0の例 0 15.3 16 1 11.9 11 2 9.3 5 3 7.2 3 4 5.6 6 5 4.4 2 6 3.4 7 7 2.7 4 8 2.1 6 9 1.6 3 10 1.3 3 11 1.0 1 12 0.8 0 13 0.6 1 14 0.5 1 15 0.4 0 ・ ・・・・・・・ 3σとなるk=11以下にある確率(k=50まで計算) P(<11)= 0.95022 (95.0%) K=30以下にある確率 P(<30)=0.99957 (99.96%) したがって、3σはかなり高リスクな許容限度(20回に1回は外れる)、 他方k=30はかなり安全な許容限界と言えます(2500回に1回外れる)。 オリジナルデータは2つのポアソン分布が重なっている様な感じもします。 工程上の心当たり有りませんか。 サンプリング回数が増え、データ数が大きくなれば消えるとは思いますが。 パラメータの決定は確率紙を使う方法も有ります。試行錯誤よりは良い と思います。検討してください。 議論の筋は、 1)サンプリング検査。検査手法と結果。 2)データの検討、正規分布にもポアソン分布にも従わない。他の方の回答参照。 3)ワイブル分布のパラメータを選べばそれらしい分布曲線となる (理由は不明)。 4)この推定分布を基に、あるサンプリング検査で着色粒数>3σ=11(整数)となる 確率を計算すると5% 。3σ許容限界を越すケースは20回に1回で(実測は 69回に2回)かなり高リスク。 他方、サンプリング検査で着色粒数>30となる確率を計算すると0.04% 。 30個の許容限界を越すケースは2500回に1回で殆ど起こり得ない。 以上より、3σを許容値に設定することは再検討した方が良い。 参考になれば幸いです。がんばって下さい。 余談ですが、昔着色米粒の選別機を他用途に試験したことが有ります。 結果は良かったのですが購入予算取れませんでした。当時試験に協力して くれた部下に、不甲斐ない上司だったことへの謝罪を込めての回答でした。 ちなみに、その機械は同業他社には広く売れたそうで用途発案者の部下には メーカーが感謝していました。貧乏上司の悲哀を感じました。 グラフ添付できませんでした。
その他の回答 (3)
- drmuraberg
- ベストアンサー率71% (847/1183)
前回の質問の回答に数表の読取り間違いに気付き、訂正を書いたのですが締め切られた後でした。 参考までに、それを下に書いておきます。結論は今回の回答No.1と同じです。 ワイブル分布の適用は、背景がまだ解らないのですが、明日整理して回答します。 データは試料10g(平均2000粒が含まれる)を1サンプルとし, 69サンプルを作り、それに付いて着色粒の数を数えた。 その結果、着色粒の数Kと個数nとの間に次の関係を見出した。 K= 1, n= AB K= 2, n= BC ・ ・・・・・・・ (ヒストグラムを加える) K=13, n=XY K=14, n=YZ その平均と分散は <n=69 σ=3.7 平均=4.0 max=14 min=0> であった。 <この結果より、あるサンプル中の着色粒上限規格(3σ)を越える物の個数は 30を遙かに下回る事を統計的手法を用いて証明しなさい>。 ヒストグラムと平均と分散の値より、着色粒の数の分布はポアソン分布 Pk = λ^k*exp(-λ)/k! に従うとし(要検討)、平均と分散の値より、λ=4とみなすと(要検討)、Pkは k= 0, P0=0.01832 k= 1, P1=0.07326 k= 2, P2=0.14653 ・・・・・・・・・・ k=10, P10=0.00529 k=11, P11=0.00192 k=12 P12=0.00064 k=13, P13=0.00020 k=14, P14=0.00006 k=15, P15=0.00002 (数表より、関数電卓で計算しても良い。) P‘ = ΣPk k=0~15 = 0.9991 (これを1.0 とする) 分散σ=3.7であるから 3σ=11.1。 着色粒の数が3σ以下の整数11以下である確率P(3σ)は P‘(3σ)= ΣPk k=0~11 = 0.99899 これを規格化し、 P(3σ) = 0.99899/0.99991=0.99908 よって着色粒の数が3σで定められる許容値11個以下である確率は99.908% である。 言い換えれば、許容値3σを超す確率は約1/1000(1000サンプリングに対し1回)である。 サンプリング毎に見出される着色粒の平均個数は4.0個である。 しかしデータではk=11~14でも着色粒が見出されている。これはポアソン分布を 前提とする限りあり得ない。 従って他の適正な分布を探す必要がある。 裾に長い尾を引く分布として知られて居るのは、ワイブル分布である。この様な分布を 検討する必要がある。 以上
お礼
drmurabergさん昨日に引き続いて貴重な長い時間を自分の為にさいて頂いて大変感謝して います。感激感激です。世の中まだまだ捨てたものではないと心の中で感動しています。嫁さんにも 話したらこの回答みて感動していました。時間がかかったでしょうと。親切な方が沢山おられる だと。 こんな回答とか考え方が自分の頭の中で出来るといいのですがもうお手上げ状態でしたので 本当に助かりました。3σを越す確立が1/1000でやはり皆さんが言っておられるように30粒の色の 付いた粒が出るのは限りなく少ないようですね。 今回の集団だけではなくて次の集団のものも分析があるのでよく分布を観察して今回のものと比較 して検討したいと思います。回答をプリントアウトして勉強させて頂きます。 ワイブル分布もはじめて耳にしました。さっそく調べてみます。 大変参考になりました。ありがとうございました。
- okormazd
- ベストアンサー率50% (1224/2412)
前回の#1です。 データが出ましたので少し検討しましたが、ポアソン分布を仮定するのには、無理があるようです。前回も平均=4、σ=3.7ということだったので、これではポアソン分布ではないと思ったのです。ポアソン分布は、平均=分散になります。 統計量を(n-1)*v/rとして有意差5%でχ^2検定をしてもポアソン分布モデルは棄却されるようです。 χ^2分布 有意水準5%散布度検定 χ^2 自由度(n-1) 上2.5% 0.025 47.1 Excel2010ではこうなる =68 下2.5% 0.975 92.7 統計量 (n-1)・v/r=237.4 いずれにしろ範囲を外れる 二項分布モデルでそれらしく考えます。 1回10g、2000粒で69回やったら、平均4、最大14だったということです。 この1回を分割して、1回0.7g、14回に分けてやったとしたら、理想的には、平均4回1個の色つきが出て、最大14回1個の色つきが出るということになる。 極端な場合、1回を1粒ずつにして、2000回やったとすれば、平均して色つきが4回でるが、色つきが30回以上出る確率はどれほどなのかという問題に帰着される。二項分布モデルです。ポアソン分布はこの分割を無限にした場合の極限です。 これで計算すると、30 回出る確率は、6.77*10^(-17)になって、30回以上でる確率を加えてもとても現実的な確率にはならない。30回以上出ることは統計的にはまずないといえる。当然ですがポアソン分布モデルで計算した値と大差はない(前回計算されてますね)。それでも説明はしやすいのではないですか。 計算ではこうなるが、元のデータのばらつきを見るとちょっと心配です。元の分布に偏りがあるか、サンプリングが悪いのか、色つき混入率が小さすぎるのか。それはわかりません。 なお、二項分布の確率計算は、下式です。 P(X=x)=nCx・p^x(1-p)^(n-x) 何か勘違いしていたら勘弁を。
お礼
okormazdさん前回に引き続き大切な時間をさいて頂きご回答ありがとうございます。 申し訳ないです。 ポアソン分布は皆さん同じ意見みたいですね。しかしいろんな考えがあって驚いています。 皆さんは学者さんなんでしょうか。尊敬します。 30個以上色つきの粒が出る確率が統計的にまずないということで少し安心出来ました。今後 もうしばらくこの分析が続くので分布がどうなっているか確認したいと思います。 ご親切にありがとうございました。プリントアウトして勉強させて頂きます。
前と同じような回答だけしか得られない可能性もありますので、前の質問のリンクを貼っておくなり質問番号を記載しておくことをお勧めします。 前の質問の#4さんの回答にあるチェビシェフの不等式を使って、ある10gの粒の中に色の付いた粒の個数が30個を超える確率を計算してみます。 10g中の色の付いた粒の個数をxとすると Pr(x > 30) = Pr(x ≧ 31) = Pr(x-4 ≧ 27) = Pr(|x-4| ≧ 27) ≦ 3.7^2/27^2 ≒ 0.0188 つまり、1.88%は超えないだろうという計算になります。 (チェビシェフの不等式は任意の分布に使えるというのは言い過ぎですが、このケースでは問題ないでしょう。) チェビシェフの不等式は様々な分布に適用できますが、得られる値は悪くてもこの値は超えないというもので、ひょっとすると実際にはもっと低い値かもしれません。 粒で色の付いたものの割合が少なければポアソン分布に従いそうですがそうはなっていようです。 (色の付いた粒が均一に混ざっていないのかサンプリングが拙いのか分かりませんが) 他に考えられる方法は、前の質問#6さんも書かれてましたが、何らかの分布を仮定してそれから計算する位ですかね。
お礼
quaestioさん、わかりやすい回答ありがとうございます。勉強不足を痛感しています。 毎度思う事なのですが自分みたいな無知な者に貴重な時間をさいて説明して頂いて 大変感謝しています。みなさん専門の方なのでしょうか、統計のことをよく知っているので 驚きです。親切丁寧にありがとうございました。
お礼
drmurabergさん何度もご丁寧に回答をして頂き、ただただ感謝です。これたけの時間をさいて 頂いて恐縮しています。 部下の方は不甲斐ない上司だとは思っていませんよきっと。しかし上司になるといろいろ苦労 されて大変です。でも周りの方々からみんなに親しまれる方だというのがよくわかります。 ここまで詳しい説明をして頂き申し訳ない気持ちでいっぱいです。 また印刷して参考にさせて頂きこれからの仕事に役立てたらいいなと思っています。 安易に3σと考えるのはよくないことがわかりました。 またわからない事がありましたらここでお聞きします。本当にありがとうございました。 せっかくの休みを自分の為に使って頂いて。明日から仕事またがんばります。 気持ちもとても嬉しくて自分にとってとてもいい休日でした。