- ベストアンサー
誤差(というより残差?)の評価方法について
今、ある実験によってxi、yi(i=1~n)を測定したとします。 xとyに対して、y=f(x)の関係性がある事が理論的にわかっているとき(例えばyとxは線形であるとか、二乗に比例とか、指数関係にあるとか)、 f(x)にxiを代入すれば当然ながら理論値Yiが導出できますよね? このyとYの誤差(正確に言えばYは真値とは言えないので、残差というべき?)をどのように評価すればいいのかわからず、困っています。 最初は標準偏差かとも思いましたが、標準偏差はある1つの値に対して複数回計測を行った時(例えば鉛筆の長さを定規で測るとか)の測定値のばらつき(真の意味での誤差?)の評価方法だと思ったので、何か違う気がしました。 Χ(カイ)二乗検定というのがあるらしいという事も調べたのですが、実際のデータの評価において、どういうものを表すもので、その数字がどの程度の大きさだとどんな事が言えるのかもよくわかっていません(そもそもどんな次元を持つ値なのかもよくわかりません×_×) このように、ある関係を持つ2変数を1度だけしか測定していない時、どうやって誤差を評価したらいいのかについて教えて下さい!よろしくお願い致します! 最後は、「この実験結果は~%の誤差を含むので、信頼できる値は少数以下~ケタの値までである」という風にしめたいと思っています。 ちなみに実際に行った実験は、懸垂曲線(水平2点で固定した糸を吊り下げた時の曲線)の座標をプロットした値と、理論座標との比較です。
- みんなの回答 (5)
- 専門家の回答
質問者が選んだベストアンサー
一般にパラメータをa(i)とすると、yとxの関係は、 y=f(x; a1,a2,...,am) m個のパラメータa1~amの最確値A1~Amを最小二乗法で求めると、残差eiは ei=f(xi; A1,A2,...,Am)-yi で定義され、普通に誤差分布をするはずのものです。 ですから、普通に残差二乗和から標準偏差を計算すればいいですよ。 ただしパラメータの分だけ自由度が減りますから、 σ^2 = Σei^2/(n-m) を使います。 懸垂線は・・・・パラメータ、ないんでしたっけ?
その他の回答 (4)
- Willyt
- ベストアンサー率25% (2858/11131)
>χ二乗分布というのはNo.3の方がいっておられる残差の二乗和から導出した標準偏差の事ですか? いえ、残差の分布の仕方がχ二乗分布という分布の仕方をするということです。それおw仮定すると、計算で出て来た近似式がどの程度信頼できるかということを量的に表現できるのです。たとえば95%合っていれば合格とすると決めれば、#3の方が示された標準偏差から合格、不合格を決められるのです。詳しくは統計学の書物を参照なさってください。
お礼
あー…統計学ですか…。 私は確率とか統計がとてもとてもとても不得意なのですが、そのとてもとてもとても不得意な統計学の本を本棚から引張りだして読んでみたところ、 巻末に分布表とグラフが載っていたため、χ二乗分布がどうやら分布の仕方の事で、どういう形の分布の事をいうのか、という事はわかりました。 しかし結局のところ使い方はよくわかりませんでした(--;) 他にもt分布や、F分布というものがあるらしいのに、どの分布に従うと仮定できるのかとか、それをどういう使い方で評価に使えばいいのか等々……。 ここまでくると最初の質問から意図が外れてくると思いますので、必要があればまた改めて別の質問としてさせていただきたいと思います。 これまでお付き合いいただき、ありがとうございました。 やっぱり統計学は苦手です…。
- Willyt
- ベストアンサー率25% (2858/11131)
>なにか良い評価の仕方はないものでしょうか? 一回は一回でも多点を測定しておられると回答されていますから、これを使えば、例えば巾乗の多項式の和で表わされる多項式の係数を最小二乗法で特定できます。これで懸垂曲線の近似式ができたことになりますね(^_^) この近似式の信頼度は残差のχ二乗分布を仮定することで検定できます。あ、#3の方がこれを指摘しておられますね(^_^;)
お礼
近似式を求めたい、というよりは、No.3の方のお礼に書かせていただいたように導出した理論式は正しいものとして、それと実験結果の差について考察したいのです。 小さければ合いました、大きければこんな誤差のせいですね、という考察になるのですが…。 でも考えてみれば理論式も近似式も似たようなものですよね。 近似式の信頼度を検定するために残差のχ二乗分布を仮定する、との事ですが、これを理論式にも使えないでしょうか? χ二乗分布というのはNo.3の方がいっておられる残差の二乗和から導出した標準偏差の事ですか?
- Willyt
- ベストアンサー率25% (2858/11131)
一度だけしか測定していないデータで誤差を評価することは不可能です。過去に何回か計測した実績から、標準偏差が算出されていればそれによって出て来た測定値の誤差を推定することはできます。 最低6個程度の測定値がないと、その標準偏差は信頼に足るものとは言い難いということのようですが、その根拠について追求したことはありません(^_^;) 懸垂曲線は糸が正確に均一な密度であることが前提になっていますから、これが均一でなけば理論値からずれます。それから測定はどんな方法で誰がやったかによっても誤差が生れます。ですから測定は一度だけではなく、できるだけ多くの回数を、できれば測定者を変えて行なう必要があります。その際、平均値は系統誤差を取除くのに有用ですから忘れずに計算して記録しておいて下さい。
お礼
回答ありがとうございます! んー…そうですよね…。やっぱり1度しか測定を行っていないのに標準偏差を使うのはNGなんですね。 ただ単に実験データと理論値がこれだけ離れてますよ、という数字を出したかったのですが…(図だけで示してもレポートとしては説得力がないので)。 誤差という言い方がそもそも間違っていたのかもしれません。勉強不足で申し訳ありません。なにか良い評価の仕方はないものでしょうか?
- shuugi-50000
- ベストアンサー率44% (53/119)
質問のイミが途中でわからなくなってしまいました。 >>ある関係を持つ2変数を1度だけしか測定していない時 2変数を1度だけしか測定していないのでしょうか? それなら、xi、yi(i=1~n) の n は1ということですか?
補足
ごめんなさい、書き方が悪かったですね。 糸を固定して吊り下げて懸垂曲線を作った後、その糸の上の点の座標(xi,yi)を適当な間隔でn個取ったという事です。 ただ、そのn個取るという作業を1度しかしなかった、という事です。 つまり、xiに対するyiが1つしかないので、標準偏差が使えないのかな?という考えに結びつくわけです。
お礼
なるほど、残差が誤差分布をするので、それを評価したらよかったのですね。 パラメータというのがよくわからないのですが…。 懸垂曲線の式は、 y=k*cosh(x/k) です。ただしk=lτ/Mg l:糸の長さ τ:最下点での糸の張力 M:糸の質量 g:重力加速度 最下点の座標が(0,k)となるように座標の原点を選び、固定点の間の距離をl/4とすれば、 l/2=k*sinh(a/k) という条件式が得られるので、これをkについて解けば懸垂曲線を決定できる、と。 で、kをニュートン法で解いて出した曲線の座標と、実際に測定した座標を標準化したものとを比較しているわけです。 パラメータというのは係数の事でしょうか?とするとこの式でパラメータはk? それともパラメータは無いのでしょうか??