- ベストアンサー
データの分析に関する問題
- nを2以上の自然数とする。変量xの値がx(1),x(2),・・・,x(n)であるとし、f(a)=1/nΣ[k=1,n](x(k)-a)^2とする。f(a)を最小にするaはx(1),x(2),・・・,x(n)の平均値で、そのときの最小値はx(1),x(2),・・・,x(n)の分散であることを示す。
- cを定数として、変量y,zのk番目のデータの値がy(k)=k(k=1,2,・・・,n),z(k)=ck(k=1,2,・・・,n)であるとする。y(1),y(2),・・・,y(n)の分散がz(1),z(2),・・・,z(n)の分散より大きくなるためのcの必要十分条件を求める。
- 変量xのデータの値がx(1),x(2),・・・,x(n)であるとし、その平均値をxバーとする。新たにデータを得たとし、その値をx(n+1)とする。x(1),x(2),・・・,x(n),x(n+1)の平均値をx(n+1),xバーおよびnを用いて表す。
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
(1) 以降、xの平均値をx*のように表記する。 f(a) = a^2 - 2 { (1/n) Σ(k=1,n) x(k) } a + (1/n) Σ(k=1,n) { x(k) }^2 = a^2 - 2 x* a + (x^2)* このaの二次関数を平方完成する。 f(a) = (a - x*)^2 + { (x^2)* - (x*)^2 } よってf(a)を最小にするaはx*であり、そのときの最小値は (x^2)* - (x*)^2 すなわちxの分散である。 (2) 任意のkに対して z(k) = c * y(k) なので 分散s^2について { s(z) }^2 = c^2 { s(y) }^2 が成立する。よってyの分散がzの分散より大きくなる条件は c^2 < 1 より -1 < c < 1 である。 (3) データn個のときの平均値をx*とし、データが(n+1)になったときの平均値をx**と表記する。 x** = { 1/(n+1) } Σ(k=1,n+1) x(k) = { 1/(n+1) } { Σ(k=1,n) x(k) + x(n+1) } = { 1/(n+1) } { n x* + x(n+1) } (4) 平均値について (3) の結果を用いて x** = (1/41) { 40 x* + 40 } = x* = 40 分散について データ40個のときの分散が670なので (1/40) Σ(k=1,40) { x(k) - 40 }^2 = 670…① が成立している。 41個目のデータを加えても平均値は40のままであるから、データが増えたあとの分散は (1/41) Σ(k=1,41) { x(k) - 40 }^2 = (1/41) [ { Σ(k=1,40) { x(k) - 40 }^2 + { x(41) - 40 }^2 ] = (1/41) { 670 × 40 + 0 } = 653.6 … → 654 中央値について はじめの40個のデータはすべて10刻みの値であり「30」「40」というデータはある。ここで、中央値が35であることから、データ40個を小さい順に並べたとき20番目が30であり、21番目が40であることがわかる。 ここに新しいデータ「40」を一個加えると、計41個のデータの中央値は小さい方から21番目の値「40」となる。
お礼
詳しくありがとうございました。