• ベストアンサー

平均を取る時の統計学

質問させてください。 某団体を運営しており、売上を顧客数で割り、顧客単価を出し、翌年度の見込みを立てていました。 時期的な要因も関係する内容なので、月ごとに出し、それを参考にしました。 ところが、(来年度見込み売上が少ない方がメリットのある方)から「統計の基本はトップとボトムを切って平均を取るもんだ」と言われ、その方法でいくと、一番安い人は極端に安い訳でなくブービーとほぼかわらず、一番高い人は、極端に高い訳ではないのですが、2位よりはある程度売上がたっている事から、平均がそれなりに下がってしまいます。 「統計の基本」と言われても、フィギュアとかの採点では聞いた事がありますが、あれは自国贔屓とかが生じないように最大点を切ってるのだと判断しており、納得しにくいです。 極端に一件だけ高いとか安いとかのノイズは排除すべきでしょうが。 これはどういった根拠になりますでしょうか。 また、このような単純な平均を取る際にも正しい数字の取り方なのでしょうか。

質問者が選んだベストアンサー

  • ベストアンサー
  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.1

 平均値は代表値の一種で、統計学的には、全てのデータを使うのが定義です。離れたデータがあるとき、データが正規分布をしていないときは、平均値を使うのが間違いで、代表値としては、中央値を利用します。  離れたものを切るのは、社会的な現場の問題です。上や下からなん%で切るか、なら、標準偏差の2倍、から離れているものは、全体の5%なので、異常と判断して切っても、統計学的には反対できません。  フィギァの場合は、統計学的な定義からは外れていますが、社会的な経験から、そのように決定するのは、正しい考えます。統計学的な正しさと、社会的な応用には差異がある、ということです。  あくまでも、例ですが。 ガンの薬を開発した。投与した群の生存は、10±0.01、しない方は9.8±0.02。統計学で検定すれば、人数さえいれば、有意差は出ます。すなわち、「有意差があるので効果あり」と判定しても、統計学では正しいので、誰からも異論はでません。しかし、単位が分であれば、誰も気にしないでしょう。効果あり、と販売しても、「効かない」と、クレーム続出でしょう。  社会的な応用とは、差異があります。フィギアのように、誰もが納得できれば、そして常に同一の処理方法ならOKです。自分の都合で、データを取捨選択することは許されませんが。

その他の回答 (2)

回答No.3

フィギュアなどの採点は、採点対象である競技者ではなく、主として採点を行う人間の恣意性を極力排除するために上下を切り捨てます。出身地が同じ、友好関係にある、個人的な好み、などといった競技とは無関係の要因によって採点が左右されることが多いからです。 また、人間的な恣意性が排除されても、例えば物差しで一定の長さを測定してもばらつきが出るように、測定側に起因した偶然のばらつきが生じます。これも、特定の選手の採点時に大きなばらつきが生じる可能性を排除するため、やはり上下を切り捨てます。二つの意味があるわけですね。目的は「公平さ」です。 さて顧客単価の統計の場合ですが、顧客の中には様々な人間がいるでしょう。ある人が一度に高額を落としていったとしても、年一度あるいは月一度きりしか来ないとします。しかし、年間売り上げの一割も占めるのであれば切り捨てて考えるわけにはいきませんね?  このような顧客の分布は顧客の決心次第なので、それを勘定する側の「見方」の恣意性や、勘定する側に起因した偶然のばらつきというものはありません。あるとすれば勧誘が熱心であった、無かったなどというところでしょうが、フィギアでいえば競技者に採点者が心理的影響をあたえるようなものです。それを考えなければ、統計的には上下を排除するべき理由はありません(特に顧客に働きかけた、などの理由で一時的に高額顧客が来た、などという理由があれば除外して考えることもありえるでしょうし、その働きかけを継続すればどうなる、という予測もできるかもしれません)。 「来年度見込み売上が少ない方がメリットのある方」のアドバイスと言うことであれば、そこには政治的な意味が込められているものと考えるべきで、易々とその手にのるのは考えものです。統計処理を行うのは経営戦略のためのものなので、杓子定規な統計処理の適用は意味がありません。 考えるべきは高額顧客が一定以上の売り上げを落とす理由、月ごとに変動する理由、高額顧客以外の顧客の傾向などなど、すべて顧客側の都合と傾向をどう判断するかなのではないでしょうか。

  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.2

確かに「上の方と下の方は例外として切り捨て, 残った部分で平均をとる」というのはしばしばあるんだけど, これは「外乱 (ノイズ) が結果に影響している」ことが前提です. 例えば「平均気温」なんてのは気象現象によってかなり大きく変動するので, 「外乱が入っている」と考えて「高すぎる値」や「低すぎる値」を排除しています. ということで, 「ノイズがどのくらい影響しているのかによって判断する」ことが必要ではないかと思います. つまり, トップやボトムが毎月異なる (そして順位も月により変動が激しい) のなら「例外値」として考えることもできるでしょう. 一方, 「トップの人はほぼ毎月トップ (あるいはそれに近い成績), ボトムの人はほぼ毎月ボトム (あるいはそれに近い成績)」ということだと, ちょっと切るのは恣意的かなぁという気がします. ちなみに「一番安い人は極端に安い訳でなくブービーとほぼかわらず、一番高い人は、極端に高い訳ではないのですが、2位よりはある程度売上がたっている」というのはなぜかよくあることで, 典型的には「指数分布」とみなせると思います.

関連するQ&A