• ベストアンサー

異なる分散の分布が合体して出来た分布の分散はどうなりますか

統合による影響を考えています。 以下のような問題を考えているのですが、 詳しい解説をよろしくお願い申し上げます。 ある変数に対する分散が大きい分布を、分布Aとします(分散をσ_A)。 分散が小さい分布を分布Bとします(分散をσ_B)。 これら二つの分布が合わさってできあがった分布を分布Cとします (分散をσ_C)。 この場合、 できあがった分布Cの分散(σ_C)を、 σ_Aとσ_Bで表したいのですが、どうしたらよいでしょうか。 分布規模が同じ場合と、 規模が異なる場合(分布Aの方が分布Bより大きい)の二つ を求めたいのですが、どうしたらよいでしょうか。 このような問題を考える際、 どのような本を勉強すればよいでしょうか。 分散を詳しく解説してある本もご紹介頂けますと、 重ねてありがたく存じます。 よろしくお願い申し上げます。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.4

サンプルの集合Aについて、サンプル数をN_A、平均をm_A、サンプルの集合Aに属するサンプルをa[j](j=1,2,...,N_A)と書くことにして、 m_A×N_A = Σ[a[j]] (Σ[ ]はj=1,2,...,N_Aについての総和) であるとしましょう。ご質問では「分散」の意味がちょっと曖昧ですが、サンプルの分散のことであると解釈し σ_A×N_A = Σ[(a[j]-m_A)^2] (Σ[ ]はj=1,2,...,N_Aについての総和。なお「^2」は二乗のこと) であるとしましょう。  サンプルの集合Bについても同様です。  まず、サンプルの集合AとBの合併集合Cについて、平均をm_Cと書くと m_C×(N_A+N_B)=Σ[(a[j]]+Σ[b[j]](最初のΣ[ ]はj=1,2,...,N_Aについての総和、二つ目のΣ[ ]はj=1,2,...,N_Bについての総和) ところが Σ[a[j]]=m_A×N_A(Σ[ ]はj=1,2,...,N_Aについての総和) Σ[b[j]]=m_B×N_B(Σ[ ]はj=1,2,...,N_Bについての総和) なのだから m_C×(N_A+N_B)=m_A×N_A + m_B×N_B なので m_C= (N_A×m_A + N_B×m_B)/(N_A+N_B) です。つまり、m_A, m_B, N_A, N_Bだけからm_Cが計算できました。  分散についてはちょっとやっかいです。 (a[j]-m_A)^2 = ((a[j]-m_C) + (m_C-m_A))^2 = (a[j]-m_C)^2+2a[j]×(m_C-m_A)-m_A×(m_C-m_A) だから、 σ_A×N_A = Σ[(a[j]-m_C)^2+2a[j]×(m_C-m_A)-m_A×(m_C-m_A)] = Σ[(a[j]-m_C)^2]+2Σ[a[j]×(m_C-m_A)]-Σ[m_A×(m_C-m_A)] = Σ[(a[j]-m_C)^2]+2(m_C-m_A)×Σ[a[j]]-[m_A×(m_C-m_A)]×N_A (この計算では、 pがjによらない定数であるとき、Σ[p×a[j]]=pΣ[a[j]]であることと pがjによらない定数であるとき、Σ[p]=p×Σ[1]=p×N_Aであること を使っています。) Σ[a[j]]=m_A×N_A なのだから σ_A×N_A =Σ[(a[j]-m_C)^2]+2(m_C-m_A)×m_A×N_A-[m_A×(m_C-m_A)]×N_A =Σ[(a[j]-m_C)^2]+(m_C-m_A)×m_A×N_A 従って、 Σ[(a[j]-m_C)^2]=σ_A×N_A + (m_A-m_C)×m_A×N_A(Σ[ ]はj=1,2,...,N_Aについての総和) です。  同様にして、 Σ[(b[j]-m_C)^2]=σ_B×N_B + (m_B-m_C)×m_B×N_B(Σ[ ]はj=1,2,...,N_Bについての総和) が言えますから、 σ_C×(N_A+N_B)=Σ[(a[j]-m_C)^2]+Σ[(b[j]-m_C)^2](最初のΣ[ ]はj=1,2,...,N_Aについての総和、二つ目のΣ[ ]はj=1,2,...,N_Bについての総和) =σ_A×N_A + σ_B×N_B + (m_A-m_C)×m_A×N_A + (m_B-m_C)×m_B×N_B  なので集合Cの分散σ_Cは σ_C = (σ_A×N_A + σ_B×N_B + (m_A-m_C)×m_A×N_A + (m_B-m_C)×m_B×N_B)/(N_A+N_B) です。つまり、σ_A, σ_B, m_A, m_B, N_A, N_Bだけからm_Cが計算できました。

masatoji
質問者

お礼

計算を確認したところ、 同値であることがわかりました。 お騒がせして、すいませんでした。ありがとうございました。

masatoji
質問者

補足

とても丁寧なご回答をいただき、ありがとうございます。 なるほどと思っております。 ただ、 > 分散についてはちょっとやっかいです。 >(a[j]-m_A)^2 = ((a[j]-m_C) + (m_C-m_A))^2 >= (a[j]-m_C)^2+2a[j]×(m_C-m_A)-m_A×(m_C-m_A) とあるのですが、 この部分は、 (a[j]-m_A)^2 = ((a[j]-m_C) + (m_C-m_A))^2 = (a[j]-m_C)^2+2a[j]×(m_C-m_A)-2m_C×(m_C-m_A)+(m_C-m_A)^2 = (a[j]-m_C)^2+2a[j]×(m_C-m_A)-2m_C^2+2m_A・m_C+m_C^2-2m_A・m_C+m_A^2 = (a[j]-m_C)^2+2a[j]×(m_C-m_A)-m_C^2+m_A^2 と計算したのですが、どうでしょうか。 再度、目を通していただけますとありがたく存じます。 よろしくお願い申し上げます。

その他の回答 (4)

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.5

ANo.4へのコメントについてです。  すいませんね。stomachmanは計算間違いの常習犯でして…  ご自分で計算がお出来になるのなら、試しに数値を入れて検算なさってみれば、ご質問なさるには及ばないかと思います。

masatoji
質問者

お礼

エクセル等で検証するというのも一つの手だと、気付きました。 少々甘えすぎてしまい、大変失礼しました。 役立つご示唆をいただき、心より感謝しております。 ありがとうございました。

  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.3

あ~, なんとなくわかった. たぶん #2 は勘違いしてます. 「2つの集団があって, それぞれの集団内では平均や分散が分かっていると仮定して, 全体をまとめた 1つの集団に対して分散がどうなるか」ということですね. だとしたら, 双方の平均 (の差) も影響してきますよ. 例えば「集団A は 90個の標本からなりその値はすべて 0」「集団B は 10個の標本からなりその値はすべて 1」という状況を考えてみます. それぞれの集団内では分散は 0 になりますが, これらをまとめた (100個の標本からなる) 集団C の分散は 0 にはなりません (0.3 かな?). ということで, 挙げられた値のみからでは求まりません. 地道に偏差の 2乗和を求めに行くことになると思います.

  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.2

確率変数 Z = X+Y においてそれぞれの分散を Var(Z) などと表すことにします. このとき, X と Y が独立なら Var(Z) = Var(X) + Var(Y) です. 独立でないときには X と Y の共分散 (もしくは同じことだが相関係数) が式に入ってきます. この辺は初歩クラスの統計の本にあるような気がします. 蛇足ですが, 普通「σ」は標準偏差を表すのではないかな.

masatoji
質問者

補足

早速ご回答いただき、ありがとうございます。 規模、平均が等しく、独立である場合は、 回答頂けましたように、Var(Z)=Var(X)+Var(Y)になるかと思います (標準偏差の2乗が分散かと思いますので、σ^2と表記できるかと思います。そこで、単純化のため上記のような表記にさせていただきました。誤解を招くような表記をしてしまい、失礼いたしました)。 ありがとうございました。 ただ、その応用の規模(この表記は正しくはないと思うのですが… 分布を形成するデータ数をイメージしています) が異なる場合はどうなるでしょうか。 データ数が100個の分散が0.1で、データ数が10個の分散が2.0があり、 この二つの分布が合わさったとき、 その分散が2.1ではおかしいような気がするのですが…。 私の考え方は間違っていると思うのです。 教えていただけましたら、ありがたく存じます。 よろしくお願い申し上げます。

  • my3027
  • ベストアンサー率33% (495/1499)
回答No.1

たしか平均値がすべて同じ場合これだったかと・・・。 σ_C^2=σ_A^2+σ_B^2 参考書は確率、統計関連の書籍がいいと思います。

参考URL:
http://home.a02.itscom.net/coffee/tako08Annex.html
masatoji
質問者

お礼

ご回答くださり、ありがとうございました。 確かに、同じ分布の場合、上記のようになるかと思います。 ありがとうございました。