- 締切済み
中央値、平均値の実際のデータでの使い方を教えてください。
検索したり簡単なデータ解析の本を読みましたが、理解が浅いため質問の仕方がおかしいかもしれませんがご容赦下さい。例えば、次のようなデータがあったとします。 あるグループの所得データ 100万円以下…3人 100万円以上200万円未満…8人 200万円以上300万円未満…23人 300万円以上400万円未満…35人 400万円以上500万円未満…26人 500万円以上600万円未満…11人 600万円以上700万円未満…7人 700万円以上800万円未満…6人 800万円以上900万円未満…4人 900万円以上1000万円未満…3人 1000万円以上…2人 このグループの所得の平均(というか、標準的な所得の値)はいくらといえるでしょうか? 単純に間をとって(100万円以上200万円未満なら150万円)、それぞれに人数をかけ、合計数値を合計人数で割ればよいのでしょうか。 色々な方法があれば知りたいです。 中央値や最頻値について調べたのですが、このようなケースの場合どう扱えばよいのか理解できませんでした。統計に詳しい方、どうか教えて下さい。よろしくお願いします。
- みんなの回答 (5)
- 専門家の回答
みんなの回答
- kgu-2
- ベストアンサー率49% (787/1592)
No2です。 >実際にこのデータでは、どう用いるかが知りたかったのです… 練習問題なら、正規確率紙、で結論はでているかと思います。 このデータが他人のものの場合 学術論文の審査をする立場でも無い限り、判断の正否の判定を求められることはないでしょう。 ご自分のデータの場合 統計で、よくある間違いの一つが、データをだしてから、『どう処理してよいか分からない、なんとかしてくれ』というものです。今回の場合、それに似ています。データを収集の方法の情報が欠落しているからです。私なら、「統計処理を予め考えてから、データを集めなおせ」と指示します。 このような社会学的なデータの場合、科学的なデータ収集というのは、最も困難です。この場合も、アンケートによるデータ収集の場合、回収率の記述が無いと、信用できません。 統計のデータを得る場合、正規分布させるのかどうかを想定するのは、当然です。すなわち、無作為抽出をしたのなら、正規分布をしていると仮定することができます。正規分布をしているか否かの確認は不要です。 ただ、ヒストグラムを作成して、正規分布に近いことを確認することに異論はありません。さもないと、平均貯蓄額のように、実感から離れた結果になります。 無作為抽出をしていないのなら、正規分布は期待できませんので、中央値を採用します。 ですから、このデータの場合、どのようにして得たのかが最重要です。データ収集の方法から、どの代表値を採用するのか判断すべきです。 どのようにして得たのか分からない場合は、判定不能が妥当でしょう。指示できる立場なら、「やり直せ」でしょう。
- Ama430
- ベストアンサー率38% (586/1527)
統計学自体には専門家というわけではありませんが... 何をするにも「目的」があるはずです。 生のデータが提示できる場合は、それが一番で、それを元に、「平均値」「最頻値(モード)」「中央値(メジアン)」などの代表値を使い分けるのでしょう。 御質問でのサンプル(度数分布)は、すでに生データではありません。ですが、たった1個の数値で集団を代表させるよりは、解釈を読み手に任せる余地があります。 それもできない状況では、「そのデータを使って何がしたいのか」によって代表値の選び方が決まってくると思います。 例えば、「所得から地域の消費傾向を類推して商品の品揃えを決める」という目的なら、階級値(100万円以上200万円未満なら150万円)を用いた平均よりも、最頻値が重要かもしれません。「銀行が預金獲得目標を決めるための参考資料」なら平均値が良いかもしれません。 統計でさまざまな代表値が使われるのは、母集団の性質が様々であることに加えて、資料をつくる目的が多様であるためだと思います。
- rabbit_cat
- ベストアンサー率40% (829/2062)
中央値か最頻値を採用すればいいとは思いますが。 所得の分布は、対数正規分布になるといわれることが多いので、平均をとる場合は、算術平均(相加平均)ではなくて、幾何平均(相乗平均)のほうがもっともらしいかもしれません。
お礼
お礼が遅くなり、申し訳ありませんでした。ありがとうございます。もしよろしければ、もう少し「相加平均」と「相乗平均」について詳しく教えていただけないでしょうか?
- kgu-2
- ベストアンサー率49% (787/1592)
>単純に間をとって(100万円以上200万円未満なら150万円)、それぞれに人数をかけ、合計数値を合計人数で割ればよいのでしょうか。 平均値は、これでOKです。 ご質問の意図は、平均値でよいのか、ということだと想います。集団の性質を表すには、平均値、中央値、最頻値が用いられます。 平均値は、偏差値に利用されているように、標準偏差と組み合わせると、集団内の順位が推定できるなど、便利が良いので、頻繁に用いられます。しかし、この場合、大前提があって、全体が正規分布していることの確認が必要です。正規分布の確認には、正規確立紙を使うよですが、やったことがないので・・・。 正規分布していない場合に使うのが中央値です。これば、データの分布に偏りがある場合、実感に近いとされています。日本人の平均貯蓄額などです。 小さい順番に数字を並べて、真ん中の数値が中央値です。データが偶数個の場合、例えば1、5、6、9の場合は、2番目と3番目の平均値5.5=(5+6)/2が中央値になります。正規分布している場合は、平均値と一致します。 しかし、「こんどの忘年会の場所、どこがいい」とアンケートをとった場合、平均値も中央値も算出できません。この場合は、多数決で決まると想います。この多数決での値を、統計学では最頻値と表現します。 全体の分布が異なると、平均値や中央値では、不十分です。標準偏差で、全体の様子を推察できますが、四分値、90%タイルなどを利用する場合もあります。 統計は、何を用いるかは、本人の自由です。しかし、もちろん誤った方法は、許されません。正規分布していないのに平均値で表す、有意差検定をして「差は無かった」という表現、などです。
お礼
お礼が遅くなって申し訳ありませんでした。平均値や中央値の考え方はわかるのですが、実際にこのデータでは、どう用いるかが知りたかったのです…。正規分布か否かは、正規確率紙というのを使い、正規分布でなかったら中央値で求めるのですね。もう少し勉強してみます。ありがとうございました。
医療関係統計(考え方が数学とは異なる部分があります)としてこちらで質問なさったとして回答します。 正規確率紙が見つからないので.直接回答は不能。 度数分布から(計算間違いをするのでご自身で計算してください) 度数,累積度数,(名称忘却, 累積度数/全体の数) 3,3,0.0234375 8,11,0.059375 23,34,0.265625 35,69,0.5390625 26,95,0.7421875 (中略) 0,128,1 と計算して.(名称忘却, 累積度数/全体の数)を正規確率紙にプロットします。すると.傾きから.正規分布とかなんとか分布とかがわかります。傾きがずれている部分は2つのぷんぷの和として.2つの分布とみます。 傾きの見方は正規確率紙の使い方を統計の本で見てください。 雰囲気からすると.380万円をピークとする大きな群と850万円をピークとする小さな群の2つの群が存在するような気がします。 これは.正規ぷんぷと仮定すると.中央値が最大で左右対称。35人をピークとすると.高額側が3人多い。したがって350マンよりもちょっと多い。だから375マンのピーク。丸めて380マン。 380マンのピークを除いて考えると 600-700が3に減る(7-3-1, 1は350よりもずれている分のおまけ) 3,6,4,3,2の並びで.1000万以上がひっくるめているから.2を4くらいに増やして.真中あたりが.800-900の4で.ここにここのぴーくがあってもよいかな。 あるいは.380のピークではなくて.350のピークに850のピークのヒゲ(やたら横に伸びる低い度数をさす。多分方言)があるのかな。 と.数値的には読めるのですが.実際のところは作図してみないことにはわかりません。 経済の場合.主に資産家階級の理論の正当せいを示す目的で統計が使われる場合があります。この場合には.大きな380のピークを0とみなして.800のピークで物事を考えます。 このような場合には.単純計算で全体を正規分布と解釈(だいすうそく(名称疑問)を適応)して機械的に計算します。 医療の場合には.極端に離れた異常値(病人)と通常値(健常者)を比較して異常値だけに注目します。すると.380のピークを正常値.800のピークを異常値(病的状態)として.380のピークの人がまったくない(危険率1%程度)とできる700あたりからの数値に注目します。 一般の統計では.800を越える人が9人で全体の7%。危険率5%で棄却できないことはないだろうから.このあたりは別集団として除外。のこりの380をピークとする人だけで議論する。 という考え方になります。どれを取るかは業界の考え方の違いです。それぞれ関係業界の書籍を見て確認してください。
お礼
お返事が遅くなり、申し訳ありませんでした。大変丁寧なお返事をありがとうございます。医療関係統計ではなく、経営関係の小論文でデータとして扱いたかったのですが、医療関係での扱い方も知ることができて大変勉強になりました。これをきっかけにもう少し統計学をきちんと学びたいと思いました。ありがとうございました。
お礼
お礼が遅くなり、申し訳ありませんでした。おっしゃるとおりですね。「所得から地域の消費傾向を類推して商品の…」と「銀行が預金獲得目標…」の二つの例は大変わかりやすかったです。ありがとうございました。