• ベストアンサー

最小自乗法で求められた傾きの誤差

データ列(x,y)がn個あって、それを最小自乗法でフィッティングして y=ax+bにおける傾きaが得られました。 そこで、yの測定誤差が例えば±10%あったとき、 傾きaの誤差δaはどのように求められるのでしょうか? データ数nが多いほどδaは小さくなるとは思いますが・・・。 よろしくお願いいたしますm(_ _)m

質問者が選んだベストアンサー

  • ベストアンサー
noname#11476
noname#11476
回答No.6

ごめんなさい、まだ続きがあるのとちょっと間違いがありました。_o_ >今yの誤差を考えているのでxi→yiでしょうか? いいえこちらは、xiで間違いありません。 <訂正部分> まず、σa と σb が入れ替わっていました。 つまり、 σa^2 = N / Δ σb^2 = Sxx / Δ です。 が、さらに追加があって、この式ではσi=1 (一定)と仮定して計算しましたので、その分の補正をかけなければならないことを忘れていました。 得られたσa, σbにたいして、 sqrt[ Χ^2 / (N-2)] をかけて、その値をσa,σbとしてください。 ここでΧ^2は回帰したときの平方和です。(つまり (y - yi)^2 をi=1,,Nで和をとったもの) 今度は間違いがあるといけないので、お示しのデータで検算しました。 傾き---- 0.143341085 切片---- 0.237704298 が68.3%誤差範囲です。 今度はExcelのLinest関数と答えあわせして、OKでしたので間違いないでしょう。 ((ΔΧv)^2の数値はLinestでは出てきませんけど。σa, σb は計算してくれます) では。

cannon333
質問者

お礼

訂正ありがとうございます。 仰ったとおり計算したところ、同様の結果が得られました。 最初解答されたときに X^2(回帰したときの平方和)が無くて yiを使わないから変だなぁ、とは思っていたんですが・・。 ExcelのLINEST関数で、ここまで求められるとは知りませんでしたよ。 統計"力"学なら多少は勉強してるんですが、 統計学はさっぱりです。 (ガウシアン、最小自乗法の初歩しか分からないです。) 最小自乗法は実験データの解析に不可欠だと思いますので、 これを機会に統計学を勉強しはじめたいと思います。 mickjey2さん、解答ありがとうございましたm(_ _)m

その他の回答 (5)

  • sen-sen
  • ベストアンサー率31% (66/211)
回答No.5

統計学の教科書には、実験を繰り返すことによって得られる回帰直線の傾き推定値aが正規分布に従うことが知られているなどと記載されています。これを信じると、t分布を使い回帰係数の推定を行うことができます。 実際に統計学の教科書には問題の例などがあって、それに従って計算すると、この場合では回帰係数aの95%信頼区間が(-0.92<a<-0.32)で示せることがわかるでしょう。統計解析ソフトウエアを使えば答えを出すのに1分もかからないでしょう。 より実際的には他のグループで推計された回帰係数aを集めて標本を作り、その分布から母集団のaの値を推定するのもよいかもしれません。 (ここでの「a」はそれぞれ定義が違うので表現法を変えた方がよいかもしれません) >そこで担当教官に「aの誤差を評価しなさい」と言われたわけです。 「誤差」を計算するには、aの真の値が必要です。 それを教官から教えてもらいましょう。 そうすると、その真値と今回の実験で得られた回帰直線の傾き推定値aとの差の絶対値が「aの誤差」となるでしょう。 >データ数nが多いほどδaは小さくなるとは思いますが・・・。 実験回数が多いと疲れていい加減になるかもしれないので一概には言えないかも。

cannon333
質問者

お礼

わざわざ計算までして下さってありがとうございます。 何とかδaを求めることができました。 統計解析のソフトですかぁ、安いなら是非手に入れたいものです。 >より実際的には他のグループで推計された回帰係数aを集めて標本を作り、 >その分布から母集団のaの値を推定するのもよいかもしれません。 いやぁ、”基礎”実験なものですから、そこまでは気力が・・・^^; >「誤差」を計算するには、aの真の値が必要です。 >それを教官から教えてもらいましょう。 言葉足らずでした。 私が求めたかったのはaの理論値からの誤差ではなく、 いわば実験値a=-0.63を真値と考えて、測定誤差などにより 実験値がどれくらい曖昧になっているかを知りたかったんです。 >実験回数が多いと疲れていい加減になるかもしれないので一概には言えないかも。 言えてます・・・。この言葉ズシンときました。 sen-senさん、度重なる解答ありがとうございましたm(_ _)m

noname#11476
noname#11476
回答No.4

いま得られるデータxi, yi の yi の不確かさ、つまり分散がどの yi でも同一であるとします。 このとき、データ数をNとして、 Sxx = Sum(i =1, N) { xi^2 } Sx = Sum(i =1, N) { xi } Δ = N * Sxx - (Sx)^2 とします。 ここで、Sum(i =1, N) は {}内の数値をi=1,2,3....,Nまで加算するΣの記号とします。 また、”^”の記号は x^2 = X * X と累乗をあらわすとします。 パラメータa、bの標準偏差σa, σbは、 σa^2 = Sxx / Δ σb^2 = N / Δ で与えられます。 さて、a, bの 68.3%, 95.4%, 99.99%などの信頼区間を求めるには、その信頼区間を表す自由度vの(ΔΧv)^2(カイ2乗と呼ばれます)の数値を用いて、 δa = sqrt[ (ΔΧv)^2 ] * σa δb = sqrt[ (ΔΧv)^2 ] * σb つまり誤差を含んだ表記としては、(a ± δa)[95.4%] のようになります。 今直線回帰の場合は自由度が2なので、代表的な信頼区間における(ΔΧ2)^2は、 68.3 % ... 2.30 95.4 % ... 6.17 99.0 % ... 9.21 99.99 % .. 18.4 となります。 ただしa, bの同時信頼域(a,bがともにある信頼度以内にある範囲)を求めたい場合はさらにややこしくなりますのでここでは割愛させていただきます。 これ以上は統計学などの本をお読みください。

cannon333
質問者

補足

解答ありがとうございます。 >Sxx = Sum(i =1, N) { xi^2 } >Sx = Sum(i =1, N) { xi } 今yの誤差を考えているのでxi→yiでしょうか? 与えてもらった式で計算してみました。(データは↓の補足から) Sxx=(-3.7)^2+(-4.3)^2+(-4.6)^2+(-4.8)^2+(-5.0)^2 =101.4 Sx=(-3.7)+(-4.3)+(-4.6)+(-4.8)+(-5.0) =-22.4 Δ=5*Sxx-(Sx)^2=(5*101.4)-(22.4)^2 =5.24 σa=sqrt{Sxx/Δ}=sqrt{101.4/5.24}=4.40 δa=sqrt{2.30}*σa #信頼区間68.3%# =6.7 最小自乗法でa=-0.63(下の補足には"-"忘れてました) と言いましたが上のδaを使うと a=-0.63±6.7 ということになってしまいました。 これでは誤差が大きすぎて誤差云々の話にならないですよね。 う~ん・・・、式の解釈の仕方が間違ってるんでしょうか?

  • sen-sen
  • ベストアンサー率31% (66/211)
回答No.3

>yの測定誤差が例えば±10% 誤差の定義が真値と測定値の差とすると、真値はどのようにして得られたのでしょうか?また、その差の大きさはいつも真の値の10%と固定されているのでしょうか? >傾きaの誤差δaはどのように求められるのでしょうか? 傾きaの不確かさδaは、yの測定不確かさの分布によって決まりそうなので、シミュレーションしてその大きさの分布を求めてみるのはいかがでしょうか。

cannon333
質問者

補足

一般的なことと具体的なことが混ざっておりましたね。 この際具体的にしてみます。 大学の真空基礎実験をしておりまして、ある物理量xとyを測定しました。 5つしか最小自乗法に使うべき、データ(x,y)の組を得られなかったので、フィッティング結果の 傾きaの誤差を考える必要が生じたのです。 具体的に書きますと、 (x,y)=(0.5,-3.7),(1,-4.3),(1.5,-4.6),(2,-4.8),(2.5,-5.0) >誤差の定義が真値と測定値の差とすると、真値はどのようにして得られたのでしょうか?また、その差の大きさはいつも真の値の10%と固定されているのでしょうか? yは測定器の目盛りを読んだもので、 yの測定誤差±10%としたのは目盛り読みとり誤差です。 10%以内と言った方が良かったかもです。 他にも測定誤差はありますが、メインでこれが効いているということで・・・。 最小自乗法で傾きa=0.63という結果になり、これを基に、ある物理量Aを求めてみるんですね。 そこで担当教官に「Aの誤差を評価しなさい」と言われたわけです。 具体的になりすぎて申し訳ないのですが、 δaの最大値と最小値を求めて、傾きaがどれくらいの範囲に収まっているか知りたいのです。 方法をもう少しわかりやすく言って下さると、とってもありがたいです。 よろしくお願いしますm(_ _)m

noname#21649
noname#21649
回答No.2

場所によって異なります。平均値付近を極しょうちとして.左右で発散するとつ関数(おう関数かも.名称が疑問)になります。 回帰分析では.最小値と最大値の間だけ使用可能であり.がいそうは原則(例外としてひょうてん方.ただし別の方法で線形性を調べてから使用するので.外装はんいが線形になっていることがわかっていますから)として使用してはならないといわれている原因です。

cannon333
質問者

お礼

解答ありがとうございますm(_ _)m sen-senさんの解答補足で具体的にお話しいたします。

  • 134
  • ベストアンサー率27% (162/600)
回答No.1

 手元に一覧表がないので、「回答」にはなりかねます… データーが多いほど、データは正規分布に近い分布を形成しますので、±10%でどれくらいの信頼度があるか、確認してみるとよいと思います。  ちなみに、得られた直線を中心とする漸近線で表されると思います…

cannon333
質問者

お礼

早速の解答ありがとうございました。 sen-senさんの解答補足で具体的にお話しいたします。

関連するQ&A