• ベストアンサー

標準偏差について疑問が!

データの評価に標準偏差というものを使おうと思うのですが、疑問があります。 88 40 41 74 47 3 90 94 42 57 88 95 60 91 83 97 65 95 79 36 25 27 63 83 2 15 27 32 っというデータ群があります。 平均が59で、標準偏差が30です。 で、ばらつきの範囲というので μ+3σ(99%含まれる) μ+2σ(95%含まれる) μ+1σ(64%含まれる) 標準偏差(σ) μ-1σ(64%含まれる) μ-2σ(95%含まれる) μ-3σ(99%含まれる) μは平均値 という式があるので、これに上記結果を当てはめると μ+3σ 149 μ+2σ 119 μ+1σ 89 標準偏差 30 μ-1σ 29 μ-2σ -1 μ-3σ -31 っとなります。 ここで不思議なのですが、今回のサンプルデータは国語のテストの点数という事で、最低を0点、最高を100点としています。 平均に対するバラツキという意味で考えると、サンプルデータの最高点と最低点よりも上下のあるのがおかしく思えます。 っというか100点以上と、0点いかが存在するのは本当に不思議です。 私の計算が間違っているだけだと思うのですが、 どなたかこの間違いを指摘していただけないでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
回答No.2

平均値と標準偏差の組み合わせで、間に含まれる割合が推定できるのは、分布の形がわかっている必要があります。 この場合は、正規分布をなしているというのが前提となります。 これは、既に回答にあるとおりです。 そして、それとは別に、100点を超えたり、0点を下回るところが出てくることはあります。 そもそも、この 80, 40, ... という数字が、「テストの点数」であることは、問題を準備した側の都合です。 統計計算の上では、あくまでも、「どこかのデータの集団から、任意に取り出したデータの例」でしかありません。 「上限は 100」という制約は、計算の中には出てこないわけです。 たとえば、-10 から 110 までのカードがあったとします。 その中から、50回取り出したとして、上記のようなデータになるかもしれません。 0以下や100以上のカードが1回も出ないこともあるでしょう。このとき、元のカードの中には、100以上のデータはなかったと断言はできません。 (でも、50回取り出して、0~100に全部収まっていたら、それ以外の範囲のカードがある可能性は少ないだろうとは言えます) そういうわけで、計算上は、「あり得ない数」が、範囲に含まれることもよくあることです。 それを、問題の意味から、「あり得ない」とするのは、問題を準備した、人間の責任になります。

hikari_tai
質問者

お礼

なるほど!とはいえあまり理解できていません。 色々調べて自分なりに勉強したいと思います。

その他の回答 (1)

回答No.1

μ+3σ(99%含まれる) μ+2σ(95%含まれる) μ+1σ(64%含まれる) は正確には、 μ±3σ(99%含まれる) μ±2σ(95%含まれる) μ±1σ(64%含まれる) ですが、こうなるのはものとデータが正規分布をしている場合のみです。 この成績の分布はちょっと見たところ正規分布とは似ても似つかないようですね。

hikari_tai
質問者

補足

アドバイスありがとうございます。 正規分布とはどういったものかを、 勉強しなおしたいと思います。

関連するQ&A