• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:統計_重みを計算で出すこと)

統計重みを計算する方法

このQ&Aのポイント
  • カテゴリーごとの割合から重みを計算する方法を教えてください。
  • 7529個のデータを持つ4つのカテゴリーについて、各カテゴリーの割合と重みを求めたいです。
  • 質問の意味が理解できました。カテゴリーごとの割合を使って、重みを計算する方法を教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.3

#2の補足ありがとうございます. カテゴリーごとの(数学的)意味が分かっていなかったのですが,補足のおかげで少し前進しました. 例えば,カテゴリーAはBに比べて現れるデータ数が少ないから重要度が低いといった意味ではなく, 「疑問詞」「普通名詞」「代名詞」「名詞節」という種類ごとに「zero形」の出現割合(確率)を比較するという話のようですね. #2の考え(試算)では 各カテゴリーごとの割合,72%,59%,46%,36%を単純に平均して53.25%ですが,これにはいちおう意味があって,(カテゴリーを区別しないときの)全使用数中での平均出現確率が53.25%ということです. そうすると,#2で書いた形式的試算は次のような意味があります. 全体平均の出現確率(約53%)を基準(0.5=50%に換算)として,各カテゴリーではそれぞれどのくらい基準(全体平均)よりも出現確率が高いかそれとも低いかの「相対的な重み」を表します. つまり,#2によれば 4つの単純平均は,詳しくやると M=53.06%で, P(a1)/2M=0.679 (←平均よりもかなり高い) P(b1)/2M=0.552 (←平均よりも少し高い) P(c1)/2M=0.434 (←平均よりもやや低い) P(d1)/2M=0.335 (←平均よりもかなり低い) というように,単純な絶対的出現確率を見るのでなく,平均的使用率に比べて相対的に現れる率が高いか低いかを見るためのものではないでしょうか. (補足の値と比べると誤差にしてもややずれが気になりますが,原因は分かりません.いちおう話が正しい信じて進みます.) 例えば全体平均が80%ならば72%は高いとは言えないが, 全体平均が53%ならば72%は高いと言える. といったように,相対比較のために換算したのではないでしょうか. ただし,するとなぜ基準を0.5にとったのかは不明です. (論理的には,平均を1=100%としてもいい.でもまあ,偏差値も平均を50にとって基準値としますから,ご研究の分野での習慣かも知れません.) ただし,上の話では全体平均として,4つのカテゴリーを全て対等の重みで扱って, 72%,59%,46%,36%を単純に平均して53.25% としましたが,もう一つ可能性があって, 各カテゴリーの使用頻度を反映させた加重平均を全体平均の値として採用すると, (121+3200+653+172)/7529×100=55.07% で,これは用例が多いBの値によって主に決まってしまいます. これを用いると M=55.07%で, P(a1)/2M=0.654 P(b1)/2M=0.532 P(c1)/2M=0.418 P(d1)/2M=0.323 となります. これも細かくみるといくらかずれていて,悩ましいです. ともあれ結論としては,適切な平均値に対する,相対的な重みのようです. どの平均値を使っているのかはどうぞご検討下さい.

sumomoyama
質問者

お礼

oshiete_goo様、この段階でかなりのことがわかってきました。ありがとうございます。さらに研究してみて、100%わかるように努力してみます。重ねて感謝もうしあげます。

その他の回答 (3)

回答No.4

#3の補足です. >#2の考え(試算)では 各カテゴリーごとの割合,72%,59%,46%,36%を単純に平均して53.25%ですが,これにはいちおう意味があって,(カテゴリーを区別しないときの)全使用数中での平均出現確率が53.25%ということです. こう書きましたが, >(カテゴリーを区別しないときの)全使用数中での平均出現確率 ならば,むしろ#3で後半に挙げた M'=(121+3200+653+172)/7529×100=55.07% を指すべきで,書き方が雑でした. 要するに,「平均」をするときに 高校野球で言えば #2と#3の前半の議論は1県(原則)1校で甲子園に出られる(カテゴリー同士を対等と見る). #3の後半は,1人1票でカテゴリーに全く関係なく,人口比で重みを決めて出場校数を比例配分する. といった違いがあります. どれが「公平か」というと,目的にもよりますので,一概には言えません. いずれにしても,記述に雑な点がありますので,学術研究で数値を議論されるときはよくよく批判的に吟味してお使いになることをおすすめします.

回答No.2

#1に対する補足によれば,#1の解釈は全く外れていたようです. 一般的に数学で言う意味での統計的重み(統計的重率)とは違うようです. 問題の出所が分からないのですが, [1]統計学の学習のための例題なのか,それとも,実際の現象の解析の報告の表なのか. [2]前者ならば,定義がどこかに書いてないか,または同様の例題(使用例)がないか. 以上ぜひ補足下さい. なお,無意味とも思われるのですが, P(a1)=72.02(%) P(b1)=58.62(%) P(c1)=46.05(%) P(d1)=35.54(%) この4つの単純平均は M=53.06で, P(a1)/2M=0.679 P(b1)/2M=0.552 P(c1)/2M=0.434 P(d1)/2M=0.335 です. 誤差を考えてもいくらかずれが大きいですが, 偶然なのかどうか...

sumomoyama
質問者

補足

oshiete_goo様、 一生懸命考えていただいてありがとうございます。 >[1]統計学の学習のための例題なのか,それとも,実際>の現象の解析の報告の表なのか. >以上ぜひ補足下さい. 実際の解析のものです。 言語学なんですが、目的格助詞「を」があるかないかについて会話データをもとに調べたもので、「ごはんを食べてから、、」などは「を」あり、「ごはん 食べてから、、、」などは「を」省略でこれをzero形といってます。このzero形の現われを調べてみると、いろいろおもしろいことがあるのです。「を」がつく単語別に「疑問詞」「普通名詞」「代名詞」「名詞節」とわけてあるのが、A、B、C、Dのカテゴリーです。たとえばAは、データ総数7529個のうち168個が疑問詞のもので、そのうちゼロ形とマークされたものがa1であらわされている121/168=0.72すなわち72%である、ということなんです。で、この72%が重みでいうと0.679になるというのがわかりません。私が参考にしてみている論文にはそういう数字が書いてあるのですが、GoldVarbというマッキントッシュ用のソフトで計算した数値であるということは書いてありますが、その詳しい出し方が書いてありません。それで質問することになりました。質問の意味、ご理解いただけたでしょうか。

回答No.1

データ総数が7529個でそれらが全て対等としてよいのならば A1を例に取ると 最初から (121÷7529)×100 [%] の方が手っ取り早いかも.(72%とかの丸めの誤差の影響を受けないので,その意味でもこれが有利.) 原理的には (属するカテゴリーの割合)×(カテゴリー中の割合) ={(カテゴリーAのデータ数:168)÷(全データ数:7529)}×(カテゴリー中の割合:72/100) =(168×72)/(7529×100) で,百分率では 168×72/7529 [%] ともいえます.それを学ばせたい問題? 取り違っていたら補足下されば,見た方が助けてくださるでしょう.

sumomoyama
質問者

補足

さっそくお答えいただきましてありがとうございます。 でも、実は、a1の重みが0.651となっているんですよね。 b1,c1,d1の重みがそれぞれ、0.526,0.435,0.345って なってるですよ。 で、こうした重みがどういう計算ででてくるのかがわからないんです。 No.1様のやりかたでも、上に書いた数値はでてきませんよね。質問の意味がわかりにくくて、どうもすみません。よろしくお願いします。

関連するQ&A