- ベストアンサー
測定したデータの誤差を計算する方法
集めたデータのばらつきを求めるときに使う計算法として、標準偏差がありますが、「誤差=平均値±標準偏差」と考えていいのでしょうか? ほかに標準誤差というのがあるようなのですが、説明を読んでも何を意味している誤差なのか理解できません。 ちなみに、データは以下の通りです。 データ数:60 最高値:39.00 最低値:11.00 平均値:22.56 標準偏差:5.261 標準誤差:0.679(5.261/√60) 標準偏差を誤差と考えると22.56±5.261で、総データの70.0%が含まれます。 標準誤差を誤差と考えると22.56±0.679で、総データの10.0%が含まれます。 回答よろしくお願いします。
- みんなの回答 (5)
- 専門家の回答
質問者が選んだベストアンサー
ここで言う標準誤差は,平均値の確度を表す指標です. (私自身は標準誤差という名称は初めてですが...) なので母集団の平均の推定値は算出した平均値±α*標準誤差 (αは推定値の信頼度によって変化します.詳しくは 統計の教科書のt-分布のあたりをご覧下さい) あと質問者さんは誤差を求めたいようですが,誤差の定義は 誤差=測定値-真値 であり,一般に真値は分からないので誤差は分からないことになります. また何の誤差をお知りになりたいのかも不明です.上のデータが何をあらわしてるのかは不明ですが, 同一のものを60回測定した結果であれば,母集団の平均の推定値がほぼ真値を表しますので,誤差は,ほぼ標準偏差と考えることができるように思います. 一方60個の別のものを測定したとすれば,母集団の平均の推定値は母集団の平均値であり,標準偏差は60個のものの分布を表していることとなり,誤差という話はあまり出てきません.(無理に言えば,製造の誤差と言えなくもありませんが)
その他の回答 (4)
- Ishiwara
- ベストアンサー率24% (462/1914)
#3です。 「バラツキを小さくしたい」というのは、だれでも願うことで、技術者が統計学を学ぶのは、ほとんどこのためです。最も良い道具は「実験計画法」と「分散分析」と言えるでしょう。 前者は、「例えば温度と原材料を変えてみるとどうなるか調べたい」ときに「少ない実験回数で多くの情報を得るにはどうするか」を研究することであり、後者は、得られたデータから「果たして効果があったのかどうか」を判定する手段です。どちらも、専門書でかなりの勉強が必要です。
お礼
専門的になってしまうんですね。 ありがとうございました。
- age_momo
- ベストアンサー率52% (327/622)
質問文を読んでも質問者さんが何を求めたいのか今一、 はっきりしないので統計の話をしておきます。 まず、誤差とバラツキは違います。 『データがばらついている。』=『誤差がある』 と、考えられているのではないでしょうか。 コイン1万枚を投げて、表が何枚あるか正確に予想しなさい。 と、言われたら、大体5000枚だと思うけど、正確には 予想できるわけがない。と思いませんか? 実際、本当に5000枚である確率は0.8%ぐらいで枚数を正確に当てるのは 至難の業です。 この例の場合の誤差は数え間違いなどが考えられますが、それは バラツキとは無関係です。ばらついて当然と考えれば、どれぐらい ばらつくか計算できます。それが標準偏差です。 上の例では(表、裏の確率が正確に1/2ずつであれば)標準偏差は50になります。 100回同じことを繰り返せば4950枚から5050枚までである回数が 70回ぐらい観察されると予想されます。 次に標準誤差ですが、理論値が分からないとして上の実験を繰り返したとします。 バラツキのあるデータの平均を取ったのですから本当の平均値と等しいとは 限りません。100回繰り返して平均が5010枚だったということも可能です。 そのときは『平均5010である』と結論をつけることになりますが、 本当の平均とは違う可能性があります。それが標準誤差です。 質問者さんのデータで言うと、バラツキのあるデータをとったなら そのバラツキ(標準偏差)は5.261です。他の回答者さんも 書いておられますが、データを増やしていっても大体67%ぐらいの データがこの範囲に収まります。 また、平均は22.56というデータですが、真の平均値との誤差は ±1.358ぐらいある可能性があります。(もっと離れている可能性も5%ほどある)
お礼
ばらつきと誤差は違うんですね。 標準偏差と標準誤差の違いも分かりました。 ありがとうございました。
- Ishiwara
- ベストアンサー率24% (462/1914)
標準偏差とは、 ((((各データの値)と(平均値)との差)の2乗)の平均値)の平方根です。 データの裾野の広がりを客観的な数字にしたものです。 いろいろな使い方をされるので、 (1) ひと組の有限個のサンプル同士のバラツキを指すのか、 (2) 母集団(無限個のサンプルと考えてもよい)のバラツキなのか、それとも、 (3) 複数のサンプル集団の間で、各集団の平均値を1つのデータと考え、それらの間のバラツキを指すのか、それともさらに、 (4) 実際値なのか推定値なのか、などを しっかり定義してかからないと失敗します。 標準誤差は、定義がどうも不安定なので、私はこの語を使わないようにしています。ウィキペディアによれば、抜き取り数を決めてサンプリングを何度もしたとき、そのつどのサンプル平均のバラツキ(上記の(3)の推定値)だそうで、あなたの提示した定義と違います。2シグマとかいう値は、実用上の意味はあるかもしれませんが、学問上の意味は希薄です。
お礼
ありがとうございました。
補足
回答ありがとうございます。 なるほど。標準偏差といっても使い方の定義によって異なってしまうんですね。 ここでの測定するデータというのは、一回一回測定するたびいろいろな条件によって変わってきてしまいます。一回の中では大きく変化はありませんが、主に時間帯、生活環境など(場所は特に変わりませんが)。 自分でも、目的もはっきり整理せず質問してしまいました。 目的を整理すると、 ・測定したデータの数値を向上させたい(高めたい) ・ばらつきをなるべく少なくしたい(平均値が高くてもばらつきが大きいとあまり意味がない) ・次回測定する目標値あるいは予測値を決めたい ということです。目標値は、用語でスレッショルドと呼ぶそうです。 大変申し訳ありませんが、改めて回答よろしくお願いします。
- kgu-2
- ベストアンサー率49% (787/1592)
誤差は、No1の方が書かれているように、誤差=測定値-真値です。真値は、「これが標準」というものを決め、それとの差です。有名なものは、メートル原器で、長さはこれを標準にします。一秒、原子1g、照度1ルクスなどは決められています。また、年代が進むにつれ、国際的な話し合いによつて、より精密なものに厳密に決定されています(ほんの少しの少しの少しの・・・差しかないのですが)。 90cmの物差しなのに、誤って100cmの目盛りをつけ、この物差しで何度測定しようと、真値はでません。 標準品は、公共機関などが決め、販売したりします。化学薬品だと、試薬の会社が、標準品として販売しています。重量だと、1円硬貨は1.000gというのは有名です。 標準偏差は、測定値のバラツキを示します。同じように時計を作っても、進みがちなものも、遅れがちなものもあります。その個々のデータのバラツキを表すのが標準偏差です。ちなみに、バラツキの大小の比較は、変動係数を用います。 標準誤差は、別々サンプルを選んで測定して平均した場合、その平均値のバラツキを表します。 >標準偏差を誤差と考えると22.56±5.261で、総データの70.0%が含まれます。 これは、正規分布から有名で、理論的には(データ数が無限大だと)68.3%になります。「データは正規分布をしている」と主張されても、異論はでないでしょう。
お礼
ありがとうございました。
補足
回答ありがとうございます。 なるほど。このデータは正規分布といえるわけですね。 質問したことなんですが、自分でも目的をはっきり整理せず質問してしまいました。 測定するデータについては、一回測定する中では条件が変化しないのですが一回一回測定するたびに条件が変化します。似たような状況もあるかとは思いますが、基本的に別のデータとして考えます。 条件というのは、時間帯や環境(例えば温度など)など様々です。 目的を整理すると、 ・測定したデータの数値を向上させたい(高めたい) ・ばらつきをなるべく少なくしたい(平均値が高くてもばらつきが大きいとあまり意味がない) ・次回測定する目標値あるいは予測値を決めたい ということです。目標値は、用語でスレッショルドと呼ぶそうです。 大変申し訳ありませんが、改めて回答よろしくお願いします。
お礼
ありがとうございました。
補足
回答ありがとうございます。 そうですか。平均値ではなく、平均の推定値からの誤差を標準偏差と考えるのですね。 自分でも、目的もはっきり整理せず質問してしまいました。 目的を整理すると、 ・測定したデータの数値を向上させたい(高めたい) ・ばらつきをなるべく少なくしたい(平均値が高くてもばらつきが大きいとあまり意味がない) ・次回測定する目標値あるいは予測値を決めたい ということです。目標値は、用語でスレッショルドと呼ぶそうです。 大変申し訳ありませんが、改めて回答よろしくお願いします。