• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:不偏分散の分母の n-1)

不偏分散の分母の n-1

このQ&Aのポイント
  • 不偏分散の計算において、分母はn-1となります。
  • 標本平均と不偏分散の関係は、自由度の減少により分母がn-1となることです。
  • 母平均は既知の値として使われるため、不偏分散の式では不要です。

質問者が選んだベストアンサー

  • ベストアンサー
  • sanori
  • ベストアンサー率48% (5664/11798)
回答No.1

こんばんは。 >>>母平均は標本から求めるものではなく(それは標本平均になる)、既知であることが前提であるため上式は不要であり、 >>>標本分散では自由度が減らず分母が n-1 ではなく n になる。 >>>この考えは間違っていないでしょうか? 間違っていません。 正しいです。 ただし、「標本分散」は標本の平均を用いて計算しますので、 母集団の平均を用いて計算した分散より小さくなることに注意してください。 (だから、「標本分散」は、あまり有用でなく、分母を n-1 とした不偏分散が使われるのです。) >>> 例えば、母集団をクラス40人のテストの点数とすると(これは母集団と言わない?)、 40人がクラス全員なのであれば、それは母集団と言います。 >>>上式より母平均(?)を求めることができます。 そうです。 >>>母平均が40個のデータに独立でないため、分散の自由度は1減らす必要がある気がします。 >>>これは結局不偏分散を求めているのでしょうか? いえ。 不偏分散は母分散の推定値ですから、分母を n-1 にする必要があります。 しかし、40個すべてのデータから得られた母平均や母分散は40個のデータと独立ではありませんが、 情報が40個あります。 ですから、分母を n-1 (=39) にする必要がありません。 以上、ご参考になりましたら。

mitsuruj
質問者

お礼

ご返答ありがとうございます。 一つわからない点があります。 >しかし、40個すべてのデータから得られた母平均や母分散は40個のデータと独立ではありませんが、 >情報が40個あります。 これは不偏分散のときも同じではないでしょうか。 (普通こんなことはしませんが)40個中39個のデータを抽出した場合は分母が n-1 になって、 40個中40個のデータを抽出した場合は分母が n になるのはどうしてでしょうか。

その他の回答 (4)

  • sanori
  • ベストアンサー率48% (5664/11798)
回答No.5

>>>ところで、標本平均の平均は母平均に近づくことは自明なことでしょうか。。。?? ? nを増やせばそうなるかということですか? だとすれば、自明と言えるかどうかはわかりませんが、近づくというのは正解です。 具体的な n と n-1 を挙げれば、 10で割るのと9で割るのとでは、約10%の差が出るのに対し、 1000で割るのと999で割るのとでは、約0.1%の差しか出ません。

mitsuruj
質問者

お礼

いろいろと丁寧なご返答ありがとうございました。 よく考えてみたいと思います。

  • sanori
  • ベストアンサー率48% (5664/11798)
回答No.4

>>>不偏分散で使うのは母平均ではなく標本平均だと思います。 そうです。 >>>標本平均と不偏分散は既知なので不足している情報はないように思えます。 いいえ。 母平均と母分散は未知ですから、限られた標本数から母集団の何かを表すときには、情報が少ないことになります。 母集団の全データがわからなくても、 仮にもしも、母平均だけという1個の情報を足すことができれば、 前回述べた「偏り」がなくなり、 母平均を使って計算した標本の分散は、そのまま母分散の推定値となります!!!!! ところが、母平均は未知であるわけです。 抜き取った標本を新たに母集団のように扱うという考え方であれば、 当然、情報は不足していることにはなりませんよ。 そうであれば、標本分散(分母はn)すればよいでしょう。 しかし、標本分散という概念は、あくまでも標本だけのことを表すものであって、 母集団を表すものではありません。 よって、使い道がありません。 有用性があるのは、母集団の分散の推定値(=不偏分散)です。 標本のデータが既知ということは、 ・標本平均は既知。 ・母集団の平均は未知。 ・標本分散は既知。(分母はn) そして、 ・母集団の分散は未知であるが、その推定値は不偏分散である。(分母はn-1) ということです。

mitsuruj
質問者

お礼

ご丁寧なご返答ありがとうございます。 ちょっと頭がこんがらがっていますので、時間をかけて考えてみたいと思います。 ところで、標本平均の平均は母平均に近づくことは自明なことでしょうか。。。?? なんか混乱してきました。

  • eatern27
  • ベストアンサー率55% (635/1135)
回答No.3

その式は、母集団が無限に大きい場合の式です。 有限(N個)の母集団から、ダブりがないようにサンプルを抽出した場合の不偏分散は、別の式になります。 ※確か、母集団が無限の場合の、(N-1)/N倍とかだった気が。

mitsuruj
質問者

お礼

ご返答ありがとうございます。

  • sanori
  • ベストアンサー率48% (5664/11798)
回答No.2

お礼のお言葉をありがとうございました。 >>> 一つわからない点があります。 >しかし、40個すべてのデータから得られた母平均や母分散は40個のデータと独立ではありませんが、 >情報が40個あります。 これは不偏分散のときも同じではないでしょうか。 (普通こんなことはしませんが)40個中39個のデータを抽出した場合は分母が n-1 になって、 40個中40個のデータを抽出した場合は分母が n になるのはどうしてでしょうか。 母集団がたとえば1000個であって、そこから40個をサンプリングするとき、 母集団の平均は未知です。サンプルの平均は既知です。 そして、 母集団の分散は未知です。サンプルの分散は既知です。 サンプルの分散を求めるときは、母集団の平均値は使わず、サンプルの平均値を使います。 そうすると、 サンプルの分散 < 母集団の分散 となります。 なぜならば、個々のサンプルの値は、 母集団の平均値よりサンプルの平均値の近くに偏っているからです。 ですから、 サンプルの分散が‘ずるく’小さい値になっている逆ハンデを解消するには、 母集団の平均値を使えばよいということになりそうです・・・・・ ・・・・・が、しかし、 サンプリングの場合は母集団の平均値はわかりません。 それは、サンプルの分散の計算を、母集団の分散の計算と比べると、 「母集団の平均値」という情報が1つ足りないということを意味します。 ですから、母分散の推定値である不偏分散では、分母となるサンプル数のnから1を引かないといけないのです。 逆に言えば、 全体の値がすべてわかっている場合、不足している情報はないので、 分散を求めるときに分母から1を差し引く必要がないということです。

mitsuruj
質問者

お礼

ご返答ありがとうございます。 >サンプリングの場合は母集団の平均値はわかりません。 ここまではわかったのですが、 >それは、サンプルの分散の計算を、母集団の分散の計算と比べると、 >「母集団の平均値」という情報が1つ足りないということを意味します。 ここがわかりませんでした。 おっしゃる通り、母集団の平均値という情報が1つ足りませんが、 不偏分散で使うのは母平均ではなく標本平均だと思います。 標本平均と不偏分散は既知なので不足している情報はないように思えます。

関連するQ&A