• ベストアンサー

人気投票の考え方

例えば5点満点でアイテムの評価を皆さんにしていただいたとします。 その際、全員が全部のアイテムに評価を入れるのであれば平均点を出せば人気順にアイテムをソート出来ますが、投票者おのおのが投票したいアイテムのみに投票する場合だと、どのような考え方、アルゴリズムでソートするのが良いのでしょうか? ほとんど人目に入らずに1人が5点満点を投票したものより、多くから投票された結果平均4.3点の方が人気があると判断するのが普通だと思います。 統計学的な理論。一般的にはこうする等ご存知であれば教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.3

> おそらくはそういったデータも使って、人気順にて表示するようなサイトもある 過去、アマゾンなんかでも「☆の平均点」とか使ってましたよね。 でもこれだけ大きくなると、統計屋のツッコミなんかもあったのか(笑)、最近は止めてしまいました。 代わって、☆○つが何%、って表示されるようになりましたね。 この「集計して順位」ってのは実はなかなか難しい問題があります。 例えば10年位前ですか。「全国学力テスト」を実施して「県別の平均点で✗✗県は何位だった」等と言った事がニュースになったりしました。 ところが、「平均」で順位をつけるってのは統計理論的にかなり難しいんですよ(笑)。 一般的に、例えば県別に「想定される分布と違う事を検証したい」と言った場合、分散分析等が用いられるんですが、 分散分析: https://bellcurve.jp/statistics/course/10006.html ところが「想定される分布と違う」事が分かったとしても、だからと言って、例えば大阪府と秋田県と「どっちが平均点が上か」と言うのは結論付けられないんです。 「見りゃ分かるじゃねぇか」ってのはもっともなんですが、下手に「統計理論」持ち込むと「結果何も言えなくなっちゃう」ってのはしばしばありますね(笑)。 つまり、やるなら「暫定的である」って事を充分にわかった上でやらないといけないんじゃないでしょうか。 今回の場合、単純に5点満点がそのアイテムにへの総数投票数の何%獲得したのか、をソーティングするのが一番確実じゃないですかね。仮に同じパーセンテージだった場合、4点満点の確率が高い方を上位とする、そして4点満点が同率だった場合3点満点の・・・以下同じですね。 ただ、サンプル数が少ない場合どうするのか、と言う問題があります。 一応、最初にあるアイテムに対しての評価データに対してカイ二乗検定(適合度検定)を行って、 適合度検定: https://bellcurve.jp/statistics/course/9494.html データの信頼性を確認した方が良いと思います。 つまり、仮に5点満点でアイテム評価、って言った場合、ランダムだとしたら分布は 5点: 20% 4点: 20% 3点: 20% 2点: 20% 1点: 20% になりますよね。ランダムだから当然です。 要はこの分布と一致しなければ「どこがが多く評価されている特異な分布」だと言う事が出来るわけです。 つまり 帰無仮説: あるアイテムの評価は一様分布に従っている 対立仮説: あるアイテムの評価は一様分布に従ってるとは言えない として適合度検定を行い、帰無仮説が棄却出来た時に、「取り敢えず何らかの特徴を持った分布になってるらしい」と信用してそれからソーティングアルゴリズムに突っ込む。 んで、仮に帰無仮説を棄却出来なかったら、「ランキング計算対象外」として取り敢えず「未評価」にしておけば良いんじゃないでしょうか。 (そしてこの場合、各カテゴリ(1点~5点)の投票数が50以上ある、ってのが原則で、要するにそのアイテムへの総投票数が250以上ないとやっぱ「ランキング計算対象外」でしょうね) まあ、暫定的ではありますが、こう言ったやり方くらいしか「統計理論からちょっとズレた」辺りだと存在しないんじゃないですかね。

muuming2001
質問者

お礼

いろいろとありがとうございます。 すぐには理解できないと思いますが、少しずつ調べてみたいと思います。

すると、全ての回答が全文表示されます。

その他の回答 (2)

  • Kaneyan-R
  • ベストアンサー率42% (1375/3206)
回答No.2

「人数が多く平均点(総得点÷人数)が高いもの」 でよいのでは?

muuming2001
質問者

お礼

考え方の一つですね。ありがとうございます。

すると、全ての回答が全文表示されます。
回答No.1

マジメに統計学的な理論で言うと、 > 例えば5点満点でアイテムの評価を皆さんにしていただいたとします。 これはカテゴリ変数と言います。あるいは順序尺度と言っても良いんですが。 > 平均点を出せば人気順にアイテムをソート出来ますが 一般にカテゴリ変数に対しては「平均点は出せません」。5点、4点、とフツーの数値を使ってるように見えますが、これらは「5点にサンプルを振り分ける」「4点にサンプルを振り分ける」、つまり「カテゴリー化」の為に使われてるんで、数値的には意味がないのです。 例えば5点、4点、をA評価、B評価、等と言ってもいいわけですが(ラベリングはこっちが勝手に出来ますよね)、当然A+B+C+D+Eなんて計算は成り立ちません。と言う事は「平均点なんざ出せない」のです。 そして、本当に5点と4点の間、4点と3点の間は等間隔で数値のように扱えるんでしょうか?そう考えると数値で記入して下さい、と言いながら基準が実に曖昧である事に気づくでしょう。 人の「アイテムへの印象」は物差しで測れるモノではないのです。 結果として、細かいランク付けが不可能なんで、ソートなんかしてもあまり意味がある結果にはならないんじゃないでしょうか。 名義尺度、順序尺度、間隔尺度、比率尺度: https://mathwords.net/syakudo

muuming2001
質問者

お礼

ありがとうございます。 厳密には意味が無いということですね。 ただ、おそらくはそういったデータも使って、人気順にて表示するようなサイトもあるので、一般的なロジックがあるのかな?と思った次第です。 ※もちろん万人に共通する人気順にはならないと思いますが

すると、全ての回答が全文表示されます。

関連するQ&A