- 締切済み
分析方法についての相談
食品メーカーに勤める研究員(品質部門)です。 先日、解析方法についてで投稿させていただきました。 (質問内容を読み直し、自分で見てもおかしかったので削除させていただきました、 回答を考えてくださってる方いましたら申し訳ありませんでした。) 改めて質問させていただきます。 2工場で別々に作られた製品群の傾向に有意差があるかを検定したいです。 考え方としては、以下のように想定しています。 (1)A工場のA群から判別式を求めました(説明変数3)。 (2)B工場のB群に、このA群からの判別式を当てはめ、誤判定率を計算します。 (3)その判定率の結果から、有意な差が見られなければ、 A群、B群の傾向に差はないと説明をつけたいです。 A群、B群ともに標本数は約250あります。 この(2)、(3)の部分を検定する方法はどうやればいいでしょうか。 それとも、そもそもこの考え方自体が間違っているでしょうか。 統計に詳しい方、アドバイスをいただければと思います。
- みんなの回答 (5)
- 専門家の回答
みんなの回答
回答No.3お礼にある「他の特性値」というのが良くわからないので、この方法で良いのかわかりませんが、一応書いておきます。 回答No.2お礼 > 説明変数が3つある場合にその分布のずれ(重心からのずれ?)を見る場合にはどのような方法がるでしょうか? ひとつのものから3つの分析機器を使って3つの数値が得られるということですね。 方法としては多変量解析となります。 データが多変量正規分布に従うとして良いなら、A群とB群の分散共分散行列と平均ベクトルが同じかどうかを検定します。 やり方は http://aoki2.si.gunma-u.ac.jp/lecture/Wilks/wilks3.html http://aoki2.si.gunma-u.ac.jp/lecture/Wilks/wilks2.html をご覧ください。 難しそうであれば、貴方が実施したと思われる、それぞれの変数について平均の差の検定を繰り返す方法でも良いでしょうが、それだけではなく分散の比較も必要となります。 (平均が同じでも分散が違っていたら同じ分布とは言えませんよね?) また、Bonferroni法により有意水準の調整をしておいた方が良いです。 それと、A群とB群の測定誤差は同程度と考えて良いんでしょうかね。 あまり違うようですと、差が製品によるものなのか測定によるものなのか分からなくなります。
- stomachman
- ベストアンサー率57% (1014/1775)
ANo.3へのコメントについてです。 > (3)A工場、B工場で特性値の出し方に若干差あり > (5)A、B工場の測定値、i,ii,iiiと値とその特性値の結果の出方に有意な差がないかということを確認したい 測定は一箇所でまとめて行うが、「特性値の結果」はそれぞれの工場で出す、ってことでしょうか。 ならば、まず「2工場で別々に出している『特性値の結果』は同等なのか」が問題なのです。だから、製品を集めたサンプルのセットを作る。このセットについて、それぞれの工場による「特性値の結果」を出して、比較すりゃいいんです。 慎重に調べても両者に差が見つからない場合、または「特性値の結果」も一箇所でまとめて出すことにした場合、あるいは両工場における「特性値の結果」の出し方が同じになるような設備を導入した場合、ようやく「2工場で別々に作られた製品群の傾向に有意差があるか」を検討できる状態になります。それから(「製品群の傾向」なんて意味不明のことを言ってないで)「両工場で、生産量に占める各グレードの製品量の比率に違いがあるか」を検討すれば良いんでしょ?
- stomachman
- ベストアンサー率57% (1014/1775)
統計についてはお詳しい方が回答なさってるようなんで、ちょっと別の角度からコメントします。 というのは、「誤判定率」だなんておおざっぱな考え方でホントに良いの?というところが引っ掛かる。(ご質問だけでは問題の状況がよく分からないんで、多分に推測が入っていますが。) まずは、工場がふたつあるという話はおいといて: 「判別式」って仰るのは判別関数のことでしょう。個々の製品kについて様々な計測を行った結果のベクトルv[k] = (v[k,1], v[k,2],…,v[k,N])があって、それを使ってある指標fを計算する。そして「f(v[k]) ≧ c なら合格、さもなくば不合格」という判別を行う。その結果と、ベテラン検査員さんが判定した正解とを比較してみる。(ちなみに、正解データが沢山あるときには、fはsupport vector machineというアルゴリズムを使って作るのがお薦めですが、それはさておき。) すると、 正解は合格なのに、fによる判定では不合格になったもの(False Positive) 正解は不合格なのに、fによる判定では合格になったもの(False Negative) の両方が生じるんじゃありませんかね。で、閾値cを大きくすると、False Positiveが減る代わりにFalse Negativeが増える。閾値cを小さくすると、False Positiveが増える代わりにFalse Negativeが減る。 ここで、fそのものはいじらないことにして、適切な閾値cはいくらか、という問題を考えますと: 横軸にFalse Negativeの発生率x、縦軸にFalse Positiveの発生率yをとって、同じデータの組に対して様々なcで判定した結果をプロットしてみると、単調な曲線が描けます。これはROC曲線と言って、判別関数fの性能特性を表す曲線です。一方、 Ln : False Negativeが1つ生じることによるロスのコスト Lp : False Positiveが1つ生じることによるロスのコスト であるとします。すると、コストの期待値 E = Ln x + Lp y が最小になるようなcを決めれば、それが最適な閾値である。(この式を直線の方程式だと思えば、Eが最小のとき、この直線はROC曲線の接線になります。)つまりEは、判別関数fが出せる最高性能を、コストという最もリアルな尺度で測ったものです。 こういう分析をやってみる狙いは、判別関数fを改良する工夫(大抵の場合にさらに重要なのは、不合格となる原因そのものを突き止めて解消すること)を「Eがもっと小さくなるように」という明確な尺度で評価できるようにすること。もうひとつのポイントは、「Lp, Lnのコストダウンに投資したり、LpとLnへのコスト配分を変えたとき、Eにどれだけ効くか」を検討する、という事です。 さて、二つの工場について検討してみる。 とは言っても、検定を持ち出す以前の話です。有意差があるかどうか、なんてことは、実務上、ま、どうでもいいでしょう。 どっちの工場も、ベテラン検査員さんによる判定で不合格が出る確率はほぼ同じだとしましょう。(これが違うんだったら、原因追及こそが優先でしょうし。) 工場Aのデータについて、最小のEを計算する。工場Bでも同じことをやる。つまり、閾値cをそれぞれの工場に合わせて調節して、ベストの判別ができるようにした上で、fの性能Eを比較します。 たとえば工場BではEが大きいのだとしたら、「工場Aでは問題になっていない何らかの不良要因が工場Bにはあって、判別関数fはその影響を捉え損ねているんじゃないか?」ということが考えられる。 また、もし両者のEが同程度であれば「この判別関数は、工場Aに特に適しているとか、工場Bに特に適しているということはなく、どっちの工場の製品についても、似たような性能だな(その性能が良いのか悪いのかは別問題だが。)」ということでしょう。しかしこれは「工場A, Bは同等」という意味ではありません。「工場Aでは主としてある要因Raによって不良が生じ、工場Bでは主として別の要因Rbによって不良が生じるが、fはどっちの不良もソコソコ捉えている(ソコソコ捉え損ねている)」ということかも知れない。 結果がどっちであっても、また、fを改良するにせよ不良原因を追求するにせよ、結局は(ベテランさんの判定によって)不合格になった事例を丁寧に精査して、何が起こっているのかを詳細に調べなきゃ、前に進まない。個別のサンプルをしっかり観察して、具体的に攻めていくっきゃないのであり、これは統計でどうこうする話ではない。 ならば、有意差が検出できたかどうかによって、やるべきアクションに本質的な違いはないでしょう。だから、「実務上、ま、どうでもいい」んじゃないかと。
回答No.1修正 (誤)それよりは、平均や分散、共分散等を使うなりして分布が同じであることを良いのではないかと思います。 (正)それよりは、平均や分散、共分散等を使うなりして分布に違いがないことを示せば良いのではないかと思います。 ところで、A群のみから判別式を求めたのですか? 普通は、A群とB群の両方のデータから判別式を求めるものと思っていたのですが。
お礼
ご回答ありがとうございました。 重ねての質問で申し訳ないですが教えてください。 (正)それよりは、平均や分散、共分散等を使うなりして分布に違いがないことを示せば良いのではないかと思います。 とのことですが、説明変数が3つある場合にその分布のずれ(重心からのずれ?)を見る場合にはどのような方法がるでしょうか?3つは独立で相関もないため、ぞう比べてよいかがわかりません。 個々の比較では2つには有意な差があり、1つには差なしと結果がでました。この結果をもとに、さらに検定するものなのでしょうか?
参考程度にしてください。 > 2工場で別々に作られた製品群の傾向に有意差があるかを検定したいです。 「傾向」というのが何を意味するかによって検定方法は異なります。 その判定法でA群をAと判定する比率とB群をAと判定する比率に違いがあるかないかを検定し、十分な検出力があっても有意な差が認められなかったら、Aと判定される比率という意味での傾向に差はないと言ってもいいでしょう。 しかし、それを一般的に「傾向に差はない」といっていいのでしょうか? 話を簡単にするために1変数のみで考え、その変数が0.95以下であればAと判定するとし、どちらの群も95%の確率でAと判定されるとします。 このとき、分布が全く異なっていたらどうでしょうか。 例えば、A群は一様分布でB群は三角分布だったとしたらどうでしょうか。 貴方はそれを同じ傾向とみなすことができますか? それよりは、平均や分散、共分散等を使うなりして分布が同じであることを良いのではないかと思います。
お礼
ご回答ありがとうございました。 「実務上、ま、どうでもいい」んじゃないかと。 その通りだと思います、ただきちんと報告書を作成しなくてはいけなく。。。 重ねての質問申し訳ないですが、教えてください。 有意差は検品の精度を見たいのではなく、開発した商品の分類が同じであるかを確認したいというイメージです(詳細を書けなく申し訳ないです)。 (1)A工場、B工場で作った商品のデータを測定(分析機器i,ii,iii) (2)測定結果と他のある特性値からA工場のA1群、A2群と分類(B工場も同様)する判別式を作成 (3)A工場、B工場で特性値の出し方に若干差あり (4)この差をなくした時、過去の分類結果をそのまま使っていいか (5)A、B工場の測定値、i,ii,iiiと値とその特性値の結果の出方に有意な差がないかということを確認したいというものです。 統計的(数学的)に、そもそも論点おかしいという点ありましたら、指摘してください。