• 締切済み

中央値を導く公式について

筑波大学OCWのサイトで中央値を求める公式を見つけたのですが、難しくて理解できませんでした。 そこで、今回以下の公式でなぜ中央値が求められるのか、 式のそれぞれの部分は何を意味しているのか、この2点をお教え頂きたいと思います。 公式は以下の通りです。 Median=L+C{(1/2n-F)/fm} よろしくお願い致します。 参考URL: http://ocw.tsukuba.ac.jp/25a0ii-2-56fd969b7dcf54085b66985e/7d718a0879d15b66/8b1b7fa91/view

みんなの回答

回答No.3

No2は完全に忘れてください。度数分布表の数値が間違っていました。すいません。 (1)まず標本から直接に中央値を求めてみます。度数分布表は一切必要ありません。 標本:23,26,27,29,32,33,34,37,41,42,44,46,47,49,51,52,53,55,58,65 データ数20個ですから、中央値は小さい方から数えて、10番目(=42)と11番目(=44)の平均値 (42+44)/2=43kg これが正確な中央値です。 (2)次に5kg範囲で度数分布表を作ってみます。 下限値以上~上限値未満:度数 --- 累積値 20~25:1   --- 1 25~30:3   --- 4 30~35:3   --- 7 35~40:1   --- 8 40~45:3   --- 11 45~50:3   --- 14 50~55:3   --- 17 55~60:2   --- 19 60~65:0   --- 19 65~70:1   --- 20 上の度数分布表だけ拠り所とします。(標本は一切忘れてください。) 度数の累積は20ですからデータは20個あったことが分かります。中央値は10番目と11番目の間ですから、度数の累積値から 40~45の範囲にあったと判断できます。 L=中央値のある階級の下限値=40 C=階級幅=5 n=標本数=20 F=中央値のある階級までの累積度数=8 (20~40までの累積です) fm=中央値のある度数=3  (40~45の度数です) 中央値=40+5*(20/2-8)/3=43.333≒43kg 補足:C*(n/2-F)/fm の意味ですが、中央値が入る区間にfm個のデータが入っているが、この区間に等間隔で入っていると考えるわけです。 すると、5/3,(5/3)*2,(5/3)*3→1.666,3.3333,5 です。下限値を足すと 41.666,43.333,45 の3個のデータと考えます。 (n/2-F)はこの3つのうちの何番目を採用するかを決めています。 注意)(1)と(2)でたまたま一致しましたが、まったく偶然です。(四捨五入もしていますし)

回答No.2

(1)まず標本から直接に中央値を求めてみます。度数分布表は一切必要ありません。 標本:23,26,27,29,32,33,34,37,41,42,44,46,47,49,51,52,53,55,58,65 データ数20個ですから、中央値は小さい方から数えて、10番目(=42)と11番目(=44)の平均値 (42+44)/2=43kg これが正確な中央値です。 (2)次に5kg範囲で度数分布表を作ってみます。 下限値以上~上限値未満:度数 --- 累積値 20~25: 1   --- 1 25~30: 3   --- 4 30~35: 3   --- 7 35~40: 2   --- 9 40~45: 3   --- 11 45~50: 3   --- 14 50~55: 3   --- 17 55~60: 2   --- 19 60~65: 0   --- 19 65~70: 1   --- 20 上の度数分布表だけ拠り所とします。(標本は一切忘れてください。) 度数の累積は20ですからデータは20個あったことが分かります。中央値は10番目と11番目の間ですから、度数の累積値から40~45の範囲にあったと判断できます。 L=中央値のある階級の下限値=40 C=階級幅=5 n=標本数=20 F=中央値のある階級までの累積度数=9 (20~40までの累積です) fm=中央値のある度数=3  (40~45の度数です) 中央値=40+5*(20/2-9)/3=41.666≒42kg 補足:C*(n/2-F)/fm の意味ですが、中央値が入る区間にfm個のデータが入っているが、この区間に等間隔で入っていると考えるわけです。 すると、5/3,(5/3)*2,(5/3)*3→1.666, 3.3333, 5です。下限値を足すと 41.666, 43.333, 45の3個のデータと考えます。 (n/2-F)はこの3つのうちの何番目を採用するかを決めています。

回答No.1

度数分布表から中央値を求める(推定)方法ですね。 本来、度数分布表はまず標本X1,X2,..,Xnを抽出した後作られるものです。(まず標本あり) で、中央値はこの標本から直接求められるものです。中央値の定義をお調べください。 では、中央値を度数分布表から求めるという状況とは、どういうことでしょう? 端的に言えば、度数分布表を作った後で、標本データをほかした(捨てた)のです。 標本データそのものはないけれど、度数分布表は手元にある。この時中央値は何になるという式です。 ですから、実際に標本データを想定して、度数分布表を作成されたら分かるかもしれません。 例: (1)標本20人の体重をサンプルしたデータを作ってみる。(適当に) (2)度数分布表を作成する。区間の幅は5kg単位とかにして。 (3)(1)のデータから直接中央値を求めてみる。 (4)(2)のデータから問題の式に当てはめて中央値を求めてみる。 これを面倒くさがらずに1度はやってみてください。その上でさらに質問があればまたお答えします。

XJ13
質問者

お礼

丁寧なご回答ありがとうございます。 アドバイス頂いた通り実際に標本データを想定して計算してみました。ただ、中央値の求め方を正しく理解できているか自信がありません。 具体的には、データから直接中央値を求めるやり方と、今回L、C、n、F、fmに代入した数値は正しいのか(L、C、n、F、fmの定義を正しく理解しているか)、また公式でなぜ中央値が求められるのかについて不安が残ります。 そこで厚かましいお願いではありますが、私の理解が正しいのか確認するため、再度ご回答お願い致します。 今回用意したサンプルは以下の通りです。 (23,26,27,29,32,33,34,37,41,42,44,46,4749,51,52,53,55,58,65) また、階級の幅は5kg間隔で (21~25, 26~30, ... 61~65) の様に設定しました。 階級値は、その階級に含まれる度数が奇数の場合は真ん中の値を取り、その階級に含まれる度数が偶数の場合は算術平均で出した平均の値を使用しました。 上記の手順から中央値を直接求めたところ、9つに分けられた階級の真ん中に位置する、5番目の階級の階級値47が中央値になると考えました。 次に、 L=中央値のある階級の下限値=41 C=階級幅=5 n=標本数=20 F=中央値のある階級までの累積度数=8 fm=10 (3)と(4)で求められた答えは共に42でした。 お時間のある時で構いませんので、どうぞよろしくお願い致します。

関連するQ&A