- ベストアンサー
【統計】平均と分散を持つデータの集合を生成
平均と分散を持つデータの集合があったとして 少ない引数でサンプルデータを作りたいと考えたのですが そうなると 1データの平均 の平均と分散 1データの分散 の平均と分散 を考えれば良いのか?という所で違和感を感じました。 何か根本的に間違っている気がします。 全体の平均と全体の分散のみを使った場合とでは結果が異なるのはわかるのですが。 これって正しいのでしょうか。 何卒よろしくお願いいたします。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
平均や分散で、何をするのか、それをお考えください。あるいは、何をしたいのか、です。 平均や分散は、母集団の性質を表す(=理解しやすくする)のに用います。 母平均は、母集団(全てのデータがそろっている)の性質を示します。集団Aと集団Bの平均値を比較すると、どちらが高いとか少ない、とか判断できます。母分散は、集団のデータのバラつきを表しています。母集団が正規分布しているのなら、その平方根である標準偏差から、上から何番目という位置さえ計算できます。 ところが、蛍光灯の寿命の平均をもとめるときに、全ての蛍光灯で寿命が尽きるまで測定すると、商品が無くなります。そこで、サンプルとして、母集団からいくつかを抽出して、測定して、データをだします。そのとき、母集団の平均値は、サンプルの平均で代用し、バラつきは、標準誤差で代用する、ことになります。 >何か根本的に間違っている気がします。 今の統計学では、平均の平均が、何を意味するのか、それが何を表して、どんな意味があのか不明です。分散の分散も同じです。これに意味があるのなら、平均の平均、のさらに平均、平均・・・、にそれぞれ説明できなくてはなりません。 統計学に限らず、科学には明確な目的を示すことが必要です(偶然うまくいく実験もありますが)。公式から計算はできますが、「平均の平均は、何を意味しているの?」と訊ねられたときに、「平均の平均を表す」では、説明になっていません。あるいは、「こんな意味があり、このように応用できる」と説明できれば、良いでしょう。平均のバラつきを表す標準誤差なんぞはあるのですが、平均の平均や分散の分散が何を意味するのか、私には思いつきません。ですから、無意味では。
その他の回答 (1)
- usokoku
- ベストアンサー率29% (744/2559)
「統計学」という学問から言えることは、 「統計以外の手段で」、「AとBとの測定値に差があるはずだ」という理論を導き出してから、測定値を計って、「差があるか否かを統計という数値処理で判断する」のです。 だから、闇雲に数値を見つけてきて統計の数値処理をして「差があった」なんて論法は、「たまたま差がある集団を拾ってきただけ」の場合があり、意味を持ちません(ただし、医学の疫学関係でこの論法を繰り広げる疫学の大家と呼ばれている大学教授がいる。そのために医学関係と経済関係では、数学とは異なる考え方の統計学が幅を利かせている)。だから、明かに間違った方法です。 「平均、分散、標準偏差」が問題になるときに、多くの場合は「正規分布である」ことを前提としています。正規分布でないにもかかわらず分散を求めていてたりする場合があります。このような場合には意味がありません。 「属性値を[0,10]」という場合、これは連続ではないです。ですから、大数則を使って正規分布とみなせる程度の測定値を得る場合、あらかじめ調べて、正規分布のような挙動を示す様に換算する場合があります。詳しいことは、「林氏の数量化なんとか」という本を探してください。 あるいは、1山分布ですと、ノンパラメトリック統計という手法が使えますが、「属性値を[0,10]」何て場合は、2山分布の場合が多いので、統計処理自体が意味を持たない場合になってしまいます。
補足
詳しくありがとうございます。 今回は実験データを作成しようと思いました。 ある作品(例えば映画)に属性(楽しい、哀しいなど)がN個あるとします。 属性値を[0,10]とすると、1作品につき属性値N個が得られます。 その実験データを生成しようとしたら、平均と分散を与えれば良いと思います。 ただ、ここで作品数がM個あるとすると、質問のようになるのでは?となってしまいました。 作品ごとに平均は違いますし、分散も違いますから。 ただ、仰る通り分散の分散なんて意味が分かりませんし、もしかしたら何か間違ってる、或いはもっといい方法があるのでは?と思うに至りました。