- ベストアンサー
回帰式の信頼区間について
現在,実験で得られたデータを散布図にし,回帰式を計算しています(JMPやIGORソフト使用). この回帰式を使って様々な計算をしたいのですが,データにはばらつきが多く,R二乗値が0.4ほどなのです. そこで,このばらついたデータのうち,明らかに異常だと思われるものを削除して,フィットした回帰式を得たいのです. 回帰式の信頼区間から外れたデータを削除すれば,回帰式はフィットする,というものでは無いのでしょうか. 信頼区間とは,そもそも何なのか,を調べていますがよく理解できません.. ご存知の方,どうぞ教えてください. よろしくお願いします.
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
- ベストアンサー
まず「間違い」は削除できるでしょう。操作方法に間違いがあるかどうか.実験操作を思い出してください。 「ばらつきが多い」場合に層別サンプリングを考えます。 何か条件が異なっている内容はないか.午前中の結果と午後の結果の違いはないか.特定の人物が行った結果だけ異なっていないか.....等別の因子を見つけ出します。 最後にnをかなり増やさないと結果が出ませんが.複数の分布に分けられるかどうか.を見ます。 回帰線ですから.せいぜいX={X1,X2,...X7}程度の7点に関して.Xiの各点でY=Yn.n=[1,....}の結果が存在するわけで.ここで度数分布を取ります。運良く2曲分布になったらば.2つの群に分けられます。 ところで.誤差分析をしていますか。誤差分析の結果が正規分布になっているのであれば.以上の方法は使えません。 「異常だと思われるもの」とのき際があるので.誤差分析の結果として変な分布が存在するという前提で回答しました。 点Xiでの測定値Yiと回帰線の計算値Ymiが存在するときに. (Yi-Ymi)の分布がYmiを中央値とする正規分布になっているということが.「回帰式が存在する」という条件になりますから。実験回数が少ない場合には.各i点でのYmiを0に移動して合計で0を中心とする正規分布であるかを見ます。 「異常だと思われるもの」が存在するということは.正規分布とみなしてたときに3シグマ離れたところの点が存在するように肉眼で見えるということになります。 3シグマや2シグマの解釈は管理図の見方が参考になりますのでこちらもみてください。
その他の回答 (1)
- 6dou_rinne
- ベストアンサー率25% (1361/5264)
そのような削除をしてしまえば結果の信頼性はなくなり、悪く言えばデータの改竄です。 回帰線の信頼区間はあくまでも回帰線の信頼区間でありデータの信頼区間とは異なります。
お礼
ご回答ありがとうございました.
補足
データ改竄と有りますが,こちらの説明が足らなかったようです. うまく説明できませんが,少なくとも,回帰式をフィットさせるように,明らかに異常と思われるプロットを削除して,式を得たいのです. この方法で,これまでずっと解析されてきており,また,数々のジャーナルに載っています. 方法を編み出したのは私ではないので,詳しいことが解らないのですが.これからそこのところも勉強しなくてはなりません. 回帰式の信頼区間とは,一体どういうものなのか,を知りたいと考えています. 現在も引き続き調べているのですが,もしご存知の方がいらっしゃいましたら,ぜひ教えてください. よろしくお願い致します.
お礼
ご丁寧な説明ありがとうございました. お礼を申し上げるのが遅くなってしまい申し訳ございません. 教えて頂いたように解析してみました.