• ベストアンサー

代表値の問題について

代表値の問題で悩んでいます(ToT;) 資料の分布に大きなかたよりがある場合、 「中央値」と「最頻値」のどちらが適切かという問題です。 正解は「中央値」となっています。 どうして「最頻値」ではいけないのでしょうか? 「平均値」が適切でない理由はいろいろなサイトに載っていたのですが、 「最頻値」が適切でない理由はどこにも載っていませんでした。 分かる方回答よろしくお願いしますm(_ _)m

質問者が選んだベストアンサー

  • ベストアンサー
回答No.4

#2です。 お礼、ありがとうございました。 ご質問者が#1さんの補足に書かれたデータが、まさに「べき分布」です。 これが、パン屋でなく洋服店なら、 冷やかしの客がいるから購入数0点が最も多く、 「本日の1客あたりの売上げ0点」となってしまいますね。 ただ、最頻値(モード:洋服のモードと同じ語源なんですよ)は、 #3さんが言われているように、情報量が少ないというか、「鈍感」な値です。 中央値(メディアン:旧JISではメジアンですが、今はメディアンです)も同じです。 もし、その日、ハリウッドスターのような大金持ちが来店して、 100点1000万円の買い物をしてくれても、 最頻値「本日の1客あたりの売上げ0点」 中央値「本日の1客あたりの売上げ2点」 と変化しません。 群の代表となる値は、 このような変化点を発見したいのか、あるいは、 多くの人が納得できる(所得のような)値にしたいのか、 で、選択する必要がありますね。

kyousei35
質問者

お礼

とても分かりやすく、やさしい説明だったのでベストアンサーに選ばせていただきました(^^)/ みなさんありがとうございました!!

その他の回答 (4)

回答No.5

代表値という言葉から想像つくように、そこにはある集団の特徴を簡単に表現したいという意図が込められています。この意識化においては、1つの集団だけ考えても意味はないのです。ある集団と別のある集団をある事柄において比較したいという意図です。 例えば、日本人とアメリカ人ではどっちが背が高いのだろう。個人どうしなら答えは正しくでますが、集団と集団を比べるわけですから簡単じゃありません。なので、代表値という概念が考えられたのでしょう。よく知られた平均等々。でも、その集団で最も背の高い人を代表値にしたってかまわないと思いますよ。 繰り返しますが、何が適切な代表値かはその関心事(比較したいもの)によるというしかありません。 パン屋の例で一人当たりのパンの購入数の多い少ないに関心がある場合、パン屋Aとパン屋Bを比べてみたい。どんな代表値にすれば良い?30人やってきて買ったのが10人とすれば、中央値はなに?0個でしょう。最頻値はなに?0個でしょう。 統計といえば確率論をベースにした推測統計を議論することが多いようですが、記述統計の世界もあるわけです。(要するにデータの要約ですね) ではデータが名義尺度(数値でないデータ)No3さんの上げた旅行の計画のような場合、代表値は? 平均値もなければ中央値もありませんしね。なので、グループの行き先の代表値を選ぶとすると代表=最頻値=東京とするのもありでしょうね。別のグループの代表値=最頻値=京都&ハワイになったらどうするのでしょう? う~ん難しいね。いずれにしても何が代表値として適切かなんて一概に答えられません。(私には)

kyousei35
質問者

お礼

細かい説明ありがとうございます!

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.3

 情報量は、平均値>中央値>最頻値になるので。  最頻値は、どれが多いかで、どの程度多いか、定量的な扱いはしにくいか、あまり意味が無い。下の例では、「東京」「京都」「ハワイ」は、本質がことなるので(東京≠京都)、単純な比較は意味が無い。最頻値が東京になったからといって、東京が良いわけでもないし、別の集団で調査すれば結果が異なるかも。  中央値は、10万円と100万円は、数値が違うだけで、同じ万札を使うので比較が可能。誰が考えても、どこで調査しても10万円の方が100万円より少ない 手前味噌ですが、ご参考までに。  http://okwave.jp/qa/q7883537.html

kyousei35
質問者

お礼

丁寧な回答ありがとうございました! 具体的な説明で分かりやすかったです^^

回答No.2

企業でSQCを推進する立場の者です。 まず、「資料」ではなく「試料」ですね。 正解が最頻値になっていない理由は、 現在の非対称分布が、「どこかに山の頂がある分布と明確に言っていない」からです。 もちろん、全国の世帯の所得とかいう場合は「最頻値」の方が適切です。 では、今、解答としてなぜ不適切かというと、 べき分布のような分布があるからです。 たとえば、毎分0秒に車の速度を計測したとしましょう。 すると、時速0km/hが最頻で、だんだん度数が減じていく分布となります。 このとき、分布を代表する値が0km/hではまずいのです。 #1さんの、多峰だからというのは理由にはなりません。 多峰であれば、まず混合状態を分離することから行わなければなりません。 多峰のどれかが群の代表というのは、あまりにも統計の常識から外れています。 たとえば所得なら、1人世帯、共働き、子供の扶養あり、 で「層別」して最頻値を求めるべきでしょうね。

kyousei35
質問者

お礼

ご指摘と丁寧な答えありがとうございました^^ とても助かりました!

回答No.1

最頻値は複数ある場合があるからが理由のひとつなのでしょう。 が、どんなデータをどんな目的で統計処理しようとしているのかが分からないと答えはでないのでは?仮に分かったとしてもどちらが適切かは一概に言えないかと思いますがね。 「適切さ」をきちっと(数学的に)定義しないと(数学的な)答えはでません。

kyousei35
質問者

補足

回答ありがとうございます! そして言葉不足ですみませんでしたm(_ _)m パン屋での、1人あたりのパンの購入個数のデータです。 1個・・・29人 2個・・・24人 3個・・・12人 4個・・・11人 5個・・・6人 6個・・・6人 7個・・・5人 8個・・・8人 合計・・・100人 上の結果の場合、代表値に適切なものはどちらかというものです。 回答よろしくお願いします!