- ベストアンサー
分散とは何ですか?
友達の大学の問題で、エクセルで身長の分散を求めなさいという宿題がありました。身長のデータが20個ぐらいあり、分散を表示させるセルに求めるという問題です。(ちょっと見ただけなので、この程度しか情報がなく申し訳ありません。どうも身長と体重などの相関関係を調べているようです。) 相談されたのですが、よくわかりません。分散というのは何なのでしょうか?あと標準偏差、中央値、最頻値、母集団という言葉もあり、言葉の意味が全くわかりません。どなたかわかりやすく言葉の意味を説明していただけたらと思います。 どうぞよろしくお願いいたします。
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
統計学の基本です。参考 URL で探してください。取り敢えず質問分に上がっている、 分散 相関関係 標準偏差 中央値 最頻値 母集団 はあると思います (全部を確認してはいません)。 ある一定の集団 (例えば日本人 20 歳男子) を想定すると、その集団に属する (例では日本人 20 歳男子) 全員を母集団と言います。その身長をすべて測ることは可能ですが、大変なので、その集団に属する何人 (例えば 20 人) を選びます (これを標本集団と言います)。標本から得られた Data から、母集団全体を推定しようと言うのが統計学です。 ここで、母集団の Data (日本人 20 歳男子全員の身長) が得られたと仮定して、例えば 5 cm 刻みで、人数を調べ、この人数を棒グラフで示します、次に 2.5 cm 刻みのようにやったとき、左右対称で、中央が一番高い山がかければ、これを正規分布といいます。あくまでも、母集団が、正規分布しているときに、分散は意味を持ちます。この正規分布で、一番高いところになる値を 「真の値」 その山の広がり具合なり、とがり具合を示すものが不偏分散になります。 標本集団では、この 「真の値」 がわからず、平均値で代用しますし、平均値と Data から算出される標本分散 (通常分散と言っているものはこちらです) で、その集団の特性を評価します。 中央値は、Data を順に並べたとき、真ん中になる数値です。例えば、 1、2、3、4、5 であれば、3 1、2、3、4、4、5 であれば、中央がないので、真ん中の 2 個 3 と 4 の間で 3.5 最頻値は観察個数が一番大きい値、後者で 4 になります。 ここで例えば、 1、2、2、2、2、3、3、3、3、3、4、4、4、4、4、4、5、6、7 であれば、中央値は 3、最頻値は 4 になります。同時にここでは、観察個数は、 1 1 2 4 3 5 4 6 5 1 6 1 7 1 で、x-軸に 1- 7、y-軸に個数を書いてみると、左右対称の山にはなりませんね。この場合は、平均値、分散を求めても余り意味はありません。 統計学の簡単な教科書を一読することをお薦めします。この場では、きれいな説明はちょっとしがたいので。また Excel の統計関数には、不偏分散と標本分散の両方がありますが、自分で間違いなく使えないようでは、大学生であれば、ちょっと問題だと思います。意味もわからず計算結果だけと言うのは、学問をするものの態度ではありません。
その他の回答 (3)
- papanori
- ベストアンサー率23% (3/13)
例を挙げて説明しますと、一組の数値群(2 3 5 5 5 7 8 9 10 100) 平均値は数値群の合計値(154)を個数(10)個で割った値(15.4)です。 中央値は数値群の真ん中の値、例では、(10)個の数値群の真ん中は5番目(5)と6番目(7)の間の数値ですので、(5+7)/2=6です。例では10以下の数値9個と、100という極端に大きな数値がありますが、100が無い場合の平均値は54/9=6で、100がある場合の平均値(15.4)とはかなり違います。このように、極端な値がある場合、平均値より中央値のほうが数値群の傾向を表しているということがあります。 最頻値は最も出現回数が多い数値で、3個ある(5)です。 偏差は個々の数値が平均値からどのくらい離れているかを表します。例では(-13.4 -12.4 -10.4 -10.4 -10.4 -8.4 -7.4 -6.4 -5.4 84.6)で、偏差は負の数が含まれることがあるため、数的処理上、偏差の2乗の数値が良く使われます。 分散は偏差の2乗和(8010.4)を数値群の個数(10)で割った値(801.04) 標準偏差は、分散の平方根(28.3)です。 分散は平均値からのばらつきを示しますので、値が大きければ、分布が大きく、小さければ分布が平均値付近に集中していることを示します。 母集団は分析対象とされる集団で、あるクラスのテストの平均点が知りたいときにはクラスのみんなが母集団となりますが、日本人の血液型の分布を知りたいときには、母集団となる日本人全員から血液型の調査するのはきわめて困難であるため、数百人あるいは数千人の人たち(標本)の分布を調べて、そこから日本人全体(母集団)の分布を推測することになります。 これらは統計学の基礎となりますので、正確に知りたければ、『統計学入門』という類の本を見てください。
お礼
お礼が遅くなり申し訳ありません。詳しい解説ありがとうございます。大変勉強になりました。
- marbin
- ベストアンサー率27% (636/2290)
#1です。 分散、ってありましたね。失礼しました。 ↓が参考になりそうです。 http://www.kde.ics.tut.ac.jp/~aono/2004/pc-kadai1-input.pdf
- marbin
- ベストアンサー率27% (636/2290)
分布、の見間違いではありませんか? 勘違いでしたらごめんなさい。
お礼
お礼が遅くなり申し訳ありません。わかりやすい解説ありがとうございました。