- ベストアンサー
統計学初心者: 分散の計算式の種類と その違いは? なぜ期待値のときの式と異なる
初心者です 母集団の分散Y= n [ シグマ {(観測値 - 平均値)^2}] / n i=1 観測値が平均値までどれくらい離れているかを2乗した結果をすべて合計して、それを nで割っています。なんとなく分かりやすいです。 30 20 △10 △20 の4個の値があれば、30+20+(-10)+(-20)=20 よって、20÷4個=平均5 上の分散の式に入れると、 (30-5)^2 + (20-5)^2 + (-10-5)^2 + (-20-5)^2 ------------ 1700 1700 / 4 = 425 となりました。 一方で、 サンプルから母集団を推定するときは、上の式の分母を ( n - 1 )にするそうです。不偏分散。ここは、本当は理解できませんがここでの趣旨と異なるので飛ばします、パス。 ところで、すこし戻りますが、 期待値が入ると上の式の分母がなくなるように見えます。なぜでしょうか(まったく別の世界のことでしょうか)? 値 発生確率 30 20% 20 40% △10 20% △20 20% ------ ----- 100% 上の4個の確率変数と呼ぶのかどうか知りませんが、期待値?が4個あって、各々の発生確率が示してあります。全部の? 期待値は、 n シグマ{発生確率i x 期待値i} = 平均のようなものでしょうか。 i=1 これの答えは、20%x30+40%x20+。。。=8 ようやく本題ですが、 ここでの 8は 平均的な値なので、発生確率をともなって、結構 散らばっております。そこで分散なるものを計算する式が、次のようなものだそうで、質問の最初の分散の式と 意味が 何か違うのかを解説下さい。 お願いします。 分散= n シグマ{ 確率i x ( 期待値i - 期待値の平均)^2 } i=1 答え= 376
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
30の発生確率が20%ということは10回のうち2回が30ということなので、 > 値 発生確率 > 30 20% > 20 40% > △10 20% > △20 20% > ------ ----- > 100% は全部で10回の測定だと 値 30 30 20 20 20 20 △10 △10 △20 △20 ------- 計 10個 を 母集団の分散Y= 10 [ シグマ {(観測値 - 平均値)^2}] / 10 i=1 で計算したものと同じです。
その他の回答 (3)
- usokoku
- ベストアンサー率29% (744/2559)
負の数を示す記号「-」の代わりに「△」を使うということは、簿記をやっている方ですね。 「発生確率」は、統計関係では「重み」「重さ」「ウェイト」とか呼びます。%表示の場合には、次の様な測定値が得られる場合と解釈してください。 なお、△は-表記に直してあります。 値 測定個数 30 20個 20 40個 -10 20個 -20 20個 ------ ----- 100個 30の値が20個あって、20の値が40個、-10が20個、-20が20個 30の値の重みが0.20、20のの重みが0.40、-10の重みが0.20、-20の重みが0.20 という意味と解釈します。発生確率がない場合には、測定個数はそれぞれ一個となります。 普遍分散の自由度の値は、実際の測定個数がわからないと決定できませんから説明を省略します。このまま直接計算すると、自由度の合計が1、平均値に自由とを1つかって、(重みに1使って、重みの計算で自由度が減らない場合がありますので、カッコでくくりました)、となって自由度が0以下になってしまいますから。
お礼
ありがとうございます
- backs
- ベストアンサー率50% (410/818)
> デルタならばΔではなく、Δもしくは小文字のδで表したほうがよいかもしれません。 差分を表すデルタが機種依存文字でΔに変換されちゃってたのですね(普段、使ったりしませんから私も知りませんでした)。
- backs
- ベストアンサー率50% (410/818)
質問に対する直接の回答ではありませんが、質問をする際にはなるべく全角と半角の区別を統一して、数式や計算式もなるべく分かりやすいように書くことがいい回答を得るためのコツです。 データを提示するときはなるべくベクトルの形で提示する。例えば、 dat = {30, 20, -10, -20} のようにですね。そして"三角"は何を意味しているのか分かりませんが、デルタならばΔではなく、Δもしくは小文字のδで表したほうがよいかもしれません。 > サンプルから母集団を推定するときは、上の式の分母を( n - 1 )にするそうです。 性質的にはサンプルサイズが小さいときにn-1ではなく、nで割って計算してしまうと小さめの値が出てしまうのです。数学的には1つのパラメータを推定すると、1つの自由度を失うからn-1で割るということになります(ここでは1つの母分散を推定しているので)。 > 期待値?が4個あって、各々の発生確率が示してあります。全部の? 期待値は、 意味が(全然)よく分かりませんが。。。 期待値?とは何のことでしょうか(私にはクエスチョンマークに見えます)。また、発生確率もよく分かりません。そもそも"度数"についていっているのならば、マイナスの値が出てくることがオカシイ。 dat = {30, 20, 10, 20} という場合ならば、30 + 20 + 10 + 20 = 80となるのですから、各セルの確率は 30 / 80 = 0.375 20 / 80 = 0.25 10 / 80 = 0.125 20 / 80 = 0.25 となるでしょう(パーセントは使わないこと)。ためしに全部足してみると、0.375 + 0.25 + 0.125 + 0.25 = 1になります。 離散分布の場合の期待値は、全平均に一致しますが、、、今回の話はまた別物なのかも(理解力不足で質問の意味がよく把握できていませんが)。
お礼
ありがとうございます
お礼
ありがとうございます