- 締切済み
回帰線からの外れ値の検定
お世話になります。 分析方法(A法とB法)の比較をしています。 測定濃度が異なる10サンプルを両分析法で分析し, その結果をプロット(横軸A法,縦軸B法)したところ, 9点はY=Xの直線上に分布するのですが, (A法での測定値がB法の測定値と非常に近い) 1点のみがY=Xから外れており, これを加えると信頼区間を含めてY=Xとはなりません。 A法とB法は系統的に異なることのない分析方法であると証明したい と思っており,この異常値を棄却する根拠が欲しいと思っています。 異常値を棄却する手法でこの1点を外れ値としたいのですが,どのような手法を用いればよいのでしょうか? お分かりになる方がいらしたら, 教えていただきたくお願いします。
- みんなの回答 (6)
- 専門家の回答
みんなの回答
- kgu-2
- ベストアンサー率49% (787/1592)
>異常値の棄却に関してこれを適用した例について,文献を教えていただければ幸いです。 文献を挙げるまでも無く、検定の基本は、100回やって95回異なる(差がある)結果になった。あとの5回は、差が無いかもしれないが、それには目につぶる。100回で95回も異なるという結果がでるのは、全体的としては異なるのは偶然ではなく、「有意差有り」と結論するというのが危険率5%の水準で有意差有りの意味です。 私は、浮気にたとえるのですが、まず、浮気をしていると帰無仮説を立てます。「浮気した?」との追求に、「浮気していない」と100回返事をして、95回していなければ、浮気していると判断・断定できません。したがって、危険率5%の水準でその人は浮気をしていない、と判定するのが検定です。 あるいは、100人の中で、上から1番と2番の人は、「頭が良い」と表現しても異論は無いでしょう。下にも1番と2番人がいるので、それらの人は全体から見ると95%の範囲を超えるからです。3番の人はギリギリ、4番の人は95%の中に入るので、統計学的には「頭が良い」とは表現できません。 2シグマは、データが正規分布が想定できるなら、95%を超えているので、異常な値として判定できます。検定の手順と結果の判断を、再度思い出してください。 >共立出版社「データのとり方とまとめ方」2004年 本が正しいとは限りません。どうせ誰かが書いたものですから。 分かり安いように誇張して書きます。AとBの値をそれぞれ、10と40(20)、20と10、80と55(40)、40と80、50と50、60と60でグラフに散布図を描いてください。エクセルで式を出すと、y=0.9795xとなりました。切片は0、傾きは1に近いのですが、これでは使い物になりません。 パソコンに頼らず、グラフに点を描き、実感してください(40年前は、誰でも手描きでした)。この場合は、カッコ内の値を使ってください。 もっとも、こんなグラフになれば、AかBのどちらかが駄目か、あるいは両方とも不適かです。 A法は、前処理が複雑で、回収率が50%だった。改良したB法は回収率100%なら、傾きは1にはなりません(回収率100%は、前処理があれば不可能)。しかし、回収率が安定しているのなら、AとBの換算は、完全にできます。というわけで、私は、相関係数を優先します。 >同時に2つの方法で測定するのは,2つの測定方法が系統的にズレていないことを確認し,簡易法に切り替えるために実施しており経済的に合理性に欠ける測定は行っていないことを付け加えさせてください。 質問者さんが「棄却したい」しか分かっておらず、具体的に何をなさっているのか理解できていませんので、失礼な表現があればお詫びしますが。というのも、私は、他の人がやることには無関心に近いので。 ところで定量法の良否の判断基準をお考えでしょうか。一般には、正確性、感度(定量下限)、迅速性、技術の不要な簡便性、経済性、安全性、の順でしょうか。あとは、回収率も。学生実習になると、安全性(怪我でもさせると、こちらのクビが・・・)が第一、そして経済性(実習費が少ない)、迅速性(夕方までに完了)、簡便性で、正確性なんぞは期待できません。
- kgu-2
- ベストアンサー率49% (787/1592)
>回帰線の中心からの2シグマの範囲からずれている測定値を棄却する考えかたがあるのですね 繰り返しになりますが、あるのではなく、検定の基本です。2シグマから外れることは、正規分布をしていれば、全体の95%の範囲から外れているかもしれないと判断します。外れていれば、危険率5%で有意差あり。棄却検定も、この手順でやっているハズです。もっとも、数式は苦手なので、証明は書き込めませんが。 >回帰直線の係数(切片と傾き)がそれぞれ0および1に等しいかどうかが重要です。 相関係数が重要では。というのも、相関係数が1.00なら、回帰式を使えば、誤差ゼロで換算・補正できるからです。 もちろん、切片がゼロでないと、「下駄が高い」ので、やりいくいのは事実です。y=50+aXで、yの値が90だと、その半分以上は下駄になります。現実には測定誤差があるので、どうしても測定値の信頼性に疑問が残ります。実際、この場合は、下駄の50をノイズと考えれば、定量限界以下という判定になり、測定値の信頼性は失われますが。 傾きも1に等しいことが望ましいのですが、サンプルの前処理などが複雑だと回収率が変動し、1にならない場合もあり、『こっちの方が、感度が悪い』と考えれぱOKでしょう。 逆に、切片ゼロ、傾き1.00でも、相関係数が0.5(こんなにヒドイのは無いでしょうが)だと、散布図上でデータがバラバラです。切片は50、傾きは0.5でが、相関係数が1.00なら直線の上にピシッと乗っていて、外れはゼロ。どちらを使うかということです。 >A法とB法の比較試験を計画的に一定の期間に、同一のオペレータにより実施しており、 私は、金属の濃度を測定することが多いのですが、AASとICPという2つの機器のどちらでも測定可能です。だからといって、2つの測定は行わず、1つの元素ならAAS、多元素ならICPと使い分けます。2つの方法で測定をするのは、時間と費用の無駄なので、理解できません。 あるいは、生化学では、蛋白の定量ができれば一人前、と教わりました。当時は『何のことやら』でしたが、その定量法は10種以上ある。その中から、条件(時間、費用、感度、操作の簡便性、特別な技術、安全性など)を考慮して、最も適切な方法を選べるようになれば一人前、と思うようになりました。2つの方法で測定する、なんぞはやりません。 また、全国的な調査に参加したことがあります。この場合は、標準品が配布され、その値の報告を要求されました。それから測定のサンプルを指示されたので、なんとか測定のウデはパスしたのだと自負しています。チェックは、測定開始前と全てのサンプルの測定が終わった2回だけでした。 というわけで、一般的には状況に合わせて、どちらか(最適な)の方法を選択します。共同研究でも、最初に一回互いのデータをチェックすれば、それで終わりだと思います。もちろん、チェクを繰り返せば信頼性は高まりますので、「無駄」とは言い切ないのですが、現在の道路特定財源での通行車の稀な「タダならあった方が良い」地方道が浮かんできます。それに、他の共同機関から、「毎回比較しましょう」なんぞを言われるのなら、『信頼されていない』と共同研究を解消しますが。 検量線で(この場合は、これに近い)、5点測定して、1点外れた場合、その1点を無視して(棄却して)検量線を引くのは認められています。しかし、学会でそんなことを発表しようものなら、「もう一度測定された方が」とやんわり指摘されれば良いほう、普通は無視され相手にされなくなります。 実際のサンプルでは、変なデータが出て、失敗と判断してやり直しがあるのは多いのですが、そこに宝の山があるのは事実です。ウデを信頼できない学生ならともかく、棄却するは慎重になさることを。 釈迦に説法の点は、ご容赦を。
- kgu-2
- ベストアンサー率49% (787/1592)
>A法とB法は系統的に異なることのない分析方法であると証明したい と思っており, A法があり、改良法としてB法を開発した。B法を代替法として使用できるか否かは、標準としている同一のサンプルについて測定し、その値について相関分析をして、それが有意であることを示せば十分。ただ、サンプル数、測定法、測定対象にもよるが相関係数が0.95以下では説得力が小さいかと。 この場合に、異常な値が出たなら、やり直すのが基本です。棄却するのは、統計学的に誤りです。やり直しができないハズはないし。「異常値は、統計処理で棄却し・・・」と説明しても、やり直しをしないと『標準のサンプルで異常値が出るバスないので、腕が悪い』『やり直しをしないサボり』と思われるだけです。 >この異常値を棄却する根拠が欲しいと思っています。 明らかに操作のミス、など誰しもが認める理由なら、棄却することができます。例えば、測定中に地震があった、など。 ただ、異常値は、重要な場合が少なくないので、その処理については慎重さが要求されます。病院の血液検査などは、異常値を探し出すのが目的なので、それを棄却しては仕事になりません。工場の製品検査も同じです。 >この方法が一般に支持されていれば良いのですが・・ 統計学的な常識でしょう。 統計学では、2シグマを超えると、全体の95%の範囲を超えるので、異常値と判断します。病院などの検査では、標準品を測定して、2ジクマを超えないことを確認し、その日の測定値の信頼性をチェックしているハズです。 回帰式でも、回帰式を中心に2シグマノ範囲を示すことができるようで、そんなソフトを見たこともあります。回帰式の専門的な本なら、書いてあるのを立ち読みしたこともあります。 明確な操作ミス(これはやり直し)以外は、異常値は棄却するのではなく、工場では不良品のチェック、病院では患者の発見に利用される、ことを強調しておきます。
お礼
ご意見をいただきありがとうございます。 回帰線の中心からの2シグマの範囲からずれている測定値を棄却する考えかたがあるのですね。参考にしたいと思います。 ただし、回答者様に誤解があるように思われますので、以下のようにコメントさせていただきます。 まず、改良法(B)と標準法(A)を比較する時に、相関係数の有意または無為は系統誤差の有無を確認するのには直接的に役に立ちません。 系統誤差の有無の確認では、回帰直線の係数(切片と傾き)がそれぞれ0および1に等しいかどうかが重要です。(ここでいう等しいかどうかは係数の推定値の信頼区間で決定されます) 相関係数は、測定方法AまたはB法の精密さを表現するにとどまるものと思われます。 さらに、異常値がでたらやり直すのが基本とのことですが、一般業務ではそうかもしれませんね。 しかし、例えば共同試験などで試験所間の測定値の精密さを調査するときには、異常値の棄却は大変重要な考え方です。 質問者は、A法とB法の比較試験を計画的に一定の期間に、同一のオペレータにより実施しており、決して少なくないリソースを投入して試験を実施しております。経済的に真の値への推定精度を上げるためには必要な手段とお考え下さい。 (一般的な異常値の棄却検定方法であるコクランの検定やグラッブスの検定の考えかたを参考にしてくだされば、質問者の意図を汲み取っていただけるものと思います。) 今後ともよろしくお願いいたします。
- Ryofui
- ベストアンサー率60% (18/30)
私もだいぶ前に少しかじっただけなのでうろおぼえなのですが 統計的にはそのような外れ値を除く手法が存在します。 参考URLの下のほうにある四分位点を用いるものや「箱ひげ図」 を使ったものがこれに当たります。 基本原理としては回帰曲線に対して標準偏差の任意倍(2とか3とか) を足し引きした線を描き(ボリンジャーバンド?)、この間から外れた値は外れ値として除去 その後残りのデータで再び回帰分析をするというようなものです。 詳しくは数学系のカテゴリーで再質問することをお勧めします。 あまり力になれず申し訳ない。
お礼
回答いただきありがとうございました。 回帰線から予測される値と観測値の差(またはこの二乗)の分布を計算し,棄却検定する方法が一番妥当かもしれません。 ただ,この方法が一般に支持されていれば良いのですが・・
異常値のところで、実験方法を間違えたのですか。
補足
回答して下さりありがとうございます。 仰せの通り,試験操作を間違えたと推定されます。 技術的な誤りであればこれを正しい値に訂正するべきと思います。 しかし,質問者は,これを統計的な外れ値として取扱いたい場合の検定方法についてのコメントをいただきたいと思っております。よろしくお願いします。
>異常値を棄却する… そのような手法はないと思います。 再測定するか、全体の回帰を用いるか、のいずれかでしょう。
お礼
回答者様におかれましては,当方の質問に対して懇切丁寧に,経験も交えて回答していただき大変参考になりました。ありがとうございました。 ところで,回帰線からの外れ値を,2シグマから棄却する方法が「検定の基本」といわれておりますが,可能でしたら,異常値の棄却に関してこれを適用した例について,文献を教えていただければ幸いです。 なお,測定方法の比較で相関係数より係数の傾きと切片が重要であることは,大変基本的な参考書で恐縮ですが,共立出版社「データのとり方とまとめ方」2004年,第5章:機器分析における校正 を参考にしていただきたくお願いします。 同時に2つの方法で測定するのは,2つの測定方法が系統的にズレていないことを確認し,簡易法に切り替えるために実施しており経済的に合理性に欠ける測定は行っていないことを付け加えさせてください。 また,当方の異常値棄却の考え方に関する記述で至らない点があったかもしれません。詳細は,下記を参照下さいますようにお願いします。 JIS Z 8402-2:1999 「測定方法及び測定結果の精確さ」 第2部:標準測定方法の併行精度及び再現精度を求めるための基本的方法