- ベストアンサー
誤差の二乗を最小にする理由
収集したデータをある関数でフィッティングする際、収集したデータと関数の差を二乗した合計が最小になるよう、関数を求める方法がありますが、なぜ二乗なのでしょうか。 統計的な根拠があるという話を聞いたのですが、WEBで検索しても手法の説明や実際の計算の仕方ばかり検索され、根拠がなかなかみつかりません。 なぜ、絶対値の合計や3乗、4乗、平方根ではなく、二乗の和を使用するのでしょうか。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
[1] 厳密な話ならばANo.1の通りです。 最小二乗法が厳密な意味でモデルのパラメータの最尤推定法になるためには、以下の前提が必要です。 (1) 誤差、すなわち測定値y[i]と真値y0[i]の差 ε[i] = (y[i]-y0[i]) は平均0、分散(σ[i])^2の正規分布 N(0, (σ[i])^2)に従う。ただし、 σ[i] = s[i] σ0 で、σ0は未知でも良いが、s[i]は既知である。 (2) 各測定は互いに独立で、それぞれの誤差の共分散は0である。 (3) パラメータのベクトルxを含む既知のモデルM(x,i)があって、真値y0[i]について、あるパラメータx0が存在して、 M(x0,i)=y0[i] である。 つまり、正解のx0を使って計算した残差y[i]-M(x0,i)は、正規分布 N(0, (σ[i])^2)に従う独立なランダム変数n個それぞれから取ったサンプルになっている、ということです。 さて、真値の推定値としてモデルが与える値 M(x,i) を使ったとき、その尤度(すなわち、測定値がy[i]であるときに真値がM(x,i)である確率)は、上記(1)(2)の仮定から、 L(M(x,i) | y[i]) = {1/(σ[i]√(2π))} exp( -((y[i]-M(x,i))^2) / (2(σ[i])^2) ) である。xの尤度L(x | y[i](i=1,...,n))(すなわち、測定値がy[i](i=1,...,n)であるときにパラメータの正解がxである確率)は、i=1...nについてのL(M(x,i) | y[i]) の積 L(x | y[i](i=1,...,n)) = Π L(M(x,i) | y[i]) = [1/{((2π)^(n/2))Πσ[i]} ] exp[-E(x)/(2(σ0^2))] である。ただし E(x) = Σ{((y[i]-M(x,i))/s[i])^2} としました。 確率の意味で最も尤もらしいx0の推定値は、尤度L(x | y[i](i=1,...,n)) を最大にするようなxである(最尤推定)。そして、L(x | y[i](i=1,...,n)) の式から明らかなように L(x | y[i](i=1,...,n))を最大にするようなx ⇔ E(x)を最小にするx です。 [2] しかしながら、実務においては「必ずしも最尤推定だと保証できなくてもいい」という場合が多々ある。また、「データy[i]が含む測定誤差が正規分布に従い、その分散の相対値s[i]が分かっている」という条件や「真値は(パラメータさえ正しければ)モデルで誤差なしに説明できる」という条件を満たせない場合も多い。なので、実務のセンスで言いますと、ANo.2の説明もまた適切であろうと思います。
その他の回答 (2)
- at9_am
- ベストアンサー率40% (1540/3760)
物凄く簡単に言えば 何かの関数でフィッティングしたい →誤差を小さくするようにしたい という場合に、最も簡単に思いつくのは「誤差の絶対値を足してゼロ」というものです。 しかし、これでは絶対値の取扱いなど、計算が非常に難しい。 したがって、二乗を使う訳です。 平方根では、(予測値-実測値)がマイナスになったときに困ります。 三乗だと、(予測値-実測値)の符号が残ってしまうため問題があります。 4乗では、最適化の時に面倒があります。 二次関数を考えてもらえば分かりますが、二次関数は山や谷が一つだけです(単峰性と言います)。したがって一回微分だけを考えれば最小値が特定できます。 一方の4次関数では山や谷が複数(一般に三つ)あります。したがって、最小値を特定することが非常に難しくなります。 勿論、最小二乗推定量は特定の条件下において最良のもの(最良不偏線形推定量)であることは間違いないのですが、上記のような理由があります。
お礼
解決しました。
- hitokotonusi
- ベストアンサー率52% (571/1086)
誤差をガウス分布に従うものとして扱っているからです。 ガウス分布に従うとすると、平均がmi、標準偏差σiである測定値を測定してyiというデータを得る確率は Pi(yi) ~ exp[ -(yi-mi)^2/2σi^2 ] となります。したがって、独立な測定をしてy1, y2, y3,・・・・という測定値が得られる確率はそれぞれの確率の積で Pall(y1, y2, y3, ・・・・) =P1(y1) P2(y2) P3(y3) ・・・ ~exp[ -(y1-m1)^2/2σ1^2 ]exp[ -(y2-m2)^2/2σ2^2 ]exp[ -(y3-m3)^2/2σ3^2 ] ・・・・ =exp[ -{(y1-m1)^2/2σ1^2 + (y2-m2)^2/2σ2^2 + (y3-m3)^2/2σ3^2 + ・・・} ] =exp[ -(1/2)Σi { (yi-mi)/σi }^2 ] = exp(-χ^2/2) ここで、 χ^2 = Σi { (yi-mi)/σi }^2 と定義する。 したがって、測定値の組{y1, y2, y3, ・・・} に対してPall(y1, y2, y3, ・・・・)を最大にしようとすればχ^2を最小にすればいいことがわかります。 y1, y2・・・のそれぞれについて標準偏差が全て同じσである場合には χ^2 = Σi { (yi-mi)/σi }^2 = (1/σ^2)Σi (yi-mi)^2 となるので、χ^2を最小にすることは残差二乗和Σi (yi-mi)^2 を最小にすることに等しくなります。 これが最小二乗法の理屈です。 関数が一次式で与えられる場合には mi = a xi + b としてa, bの最確値を求めることになります。
お礼
解決しました。
お礼
理解できました。 ありがとうございます。
補足
これらの情報をもとに少し考えて見ます。返事はお待ちください