• ベストアンサー

Zスコアと標準偏差について

ある本の説明で「Zスコアは平均値が0、標準偏差は±1」とあったのですが、「Zスコアの標準偏差が±1」とはどのようなことなのでしょうか?また、標準偏差=√{偏差平方和/(測定数-1)} から求められますが、なぜ分母が測定数ではなく、(測定数-1)なのでしょうか?どなたかアドバイスの程よろしくお願い致します

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.2

平均と標準偏差が分かっている母集団から取ったひとつのサンプル(標本)の値xを x = 平均 + (Zスコア)×(標準偏差) の形で表すと、xが母集団全体の中での相対的な大きさとしてどのぐらいのモノであるかが分かり易い、というんで使われるのがZスコアです。だから、xがたまたま x = 平均 である場合にはそのサンプルのZスコアは0、xがたまたま x = 平均 + 標準偏差 である場合にはそのサンプルのZスコアは1、xがたまたま x = 平均 - 標準偏差 である場合にはそのサンプルのZスコアは-1です。  ところで、「母集団の平均と標準偏差が分かっている」ということは実は滅多になくて、大抵は、母集団から取ったN個のサンプルの値を使って母集団の平均と標準偏差を推定するしかありません。この推定の際に、「値が分かっているのは与えられたN個のサンプルだけ、という条件の下では最も良い推定値(不偏推定)」を計算したい。  まず 「母集団の平均の推定値」は、 母集団の平均の推定値 = サンプルの平均値 とするのが不偏推定であることが証明されています。つまり、何度もサンプルを取り直して上記の式で推定値を計算し、「(真の)母集団の平均値」との違い(推定誤差)が幾らあるかを統計的に調べたとしたらどうなるかを考えると、「推定誤差の平均は0になる」ことが理論的に示せるのです。  しかし不偏推定による「母集団の標準偏差の推定値」は、「サンプルの標準偏差」とはちょっと違う。平方根の中の分母をサンプル数Nではなくて、N-1にするのが不偏推定であることが証明されています。  平方根の中の分子の部分で、平均値を引き算しています。この平均値がもし「(真の)母集団の平均値」であれば、分母はNで良いんです。ところが実際には、「母集団の平均の推定値」しか使えません。推定値に過ぎないのだから「(真の)母集団の平均値」から少しずれている。誤差があるのです。  そして、N個のサンプルを使って「母集団の標準偏差の推定値」を計算するために、同じN個のサンプルで推定した「母集団の平均の推定値」を引き算した場合、「母集団の平均の推定値」に含まれる誤差の影響が偏って現れます。この効果を補正するのが「分母はNじゃなくてN-1」なのです。というのは、   s = √(Σ((サンプルの値 - 母集団の平均値)^2)/N) s' = √(Σ((サンプルの値 - サンプルの平均値)^2)/N) とでは、平均値の部分が違うから答が一致しません。どのぐらい違うかはサンプルを取る際の偶然に左右される。けれども、(「(真の)母集団の平均値」が分かっている場合に)何度もサンプルを取り直してsとs'の計算をし、違いが幾らあるかを統計的に調べたとしたらどうなるかを考えると、「sとs'の違いは平均としてどれだけか」が理論的に予想でき、その予想とは「平均として、s'はsの√((N-1)/N)倍になる」というものです。なので、 s ≒ s'/√((N-1)/N) によってsを推定すれば、不偏推定による「母集団の標準偏差の推定値」、つまり「値が分かっているのは与えられたN個のサンプルだけ、という条件の下では最も良い推定値(不偏推定)」が計算できる訳です。  ではなぜ、sとs'では後者の方がちょっとだけ小さく出るか。  (以下、フンイキ的な説明であり、厳密ではありませんが)例えば、(偶然の偏りによって)サンプルが母集団全体から一様には選べておらず、「(真の)母集団の平均値」に比べて大きめの値のものが若干多く含まれていたとしましょう。当然、サンプルの平均値は「(真の)母集団の平均値」よりもちょっと大きくなります。  ところで(母集団の平均値+サンプルの平均値)/2よりも大きいサンプルをひとつ選んで注目すると、 (サンプルの値 - 母集団の平均値)^2 よりも (サンプルの値 - サンプルの平均値)^2 の方が小さい。  さて、大きめのサンプルが若干多く入っていると仮定したんですから、N個のサンプル中、「(母集団の平均値+サンプルの平均値)/2よりも大きいサンプル」の数は、そうでないものより若干多いでしょう。だから、s'はsよりちょっと小さい値になっちゃう。  小さめのサンプルが若干多く入っていると仮定した場合にも、同様に考えれば、s'の方がちょっと小さい値になっちゃうことが分かります。

SATA_YUKI
質問者

補足

ありがとうございます。大変良く理解することができました。ところで、最後の「小さめのサンプルが若干多く入っていると仮定した場合にも、同様に考えれば、s'の方がちょっと小さい値になっちゃうことが分かります。」とありますが、ここが分かりません。この場合、サンプルの平均値は母集団の平均値より小さくなり、 (サンプルの値 - 母集団の平均値)^2<(サンプルの値 - サンプルの平均値)^2 となってしまうのですが・・・ お手数ですが、アドバイスいただければと思います。どうぞ宜しくお願い致します。

その他の回答 (3)

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.4

ANo.2のコメントについてはANo.3に適切なアドバイスが出ました。 > この場合、サンプルの平均値は母集団の平均値より小さくなり、 そーです。で、今度は小さめのサンプルひとつに着目するんです。すると、 (サンプルの値 - 母集団の平均値)^2 > (サンプルの値 - サンプルの平均値)^2 でしょ。そして、小さめのサンプルが若干多く入っているんだから、総和を取るとsはs'よりちょっと小さくなる。

SATA_YUKI
質問者

お礼

なるほど。ありがとうございました。

  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.3

#2 のネタだけど, 「母平均より小さい標本が多く出た」場合には, 「(母平均+標本平均)/2 より小さな標本」を考えないとダメっす.

  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.1

「平均0, 標準偏差1」となるように正規化したのが z スコア. 標準偏差を求めるときに「測定数-1」で割っているのは, 「測定結果というのは, もっと大きな母集団の一部」と考えられるからです. 理論上は無限回測定でき, これが母集団です. 標本から母集団の不偏分散を求めるときには「測定数-1」で割りますよね.

関連するQ&A