• 締切済み

母集団と確率空間の違い

母集団と確率空間の違いは何でしょうか? なんとなく似たような概念だと感じているのですが, いまいちはっきりと理解できていないため,どなたかご教示いただければと思います. おすすめの参考文献などもありましたら是非教えていただきたいです. よろしくお願いいたします.

みんなの回答

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.9

ANo.1へのコメントについてです。 > 1. 「母集団てのはあらゆる測定値(ベクトルでももちろんOK)を要素とする確率空間 > です」という部分は,「母集団は標本空間Ω,事象F,確率Pの三つ組からなる確率空 > 間であり,標本空間はあらゆる測定値を要素とする」という理解であっているでしょ > うか?  母集団という言葉を使おうとも、また、確率空間という言葉を使おうとも、いずれにせよ「サンプルは、あるひとつの確率的なメカニズム(確率モデル)に従って生成される」と仮定しているという点で全く同じです。ただし、「ある確率的なメカニズムを与えたとき、もしサンプルを取ったらそれらはどんな性質を(ある確率で)示すか、を予言する」という確率論における確率空間と、「サンプルを取ったんだけど、さて、これらをどんな確率的なメカニズムで説明できるかな?」という統計学における母集団(少なくともPは未知である)とでは、目的・興味の方向に違いがあります。 > 「ランダムに要素を取り出す」という部分に違和感を覚えました.母集団を仮定した時点で各測定値が測定される確率は与えられているはずなので,  もしランダムという条件がなければ、たとえばサンプリングする人がえり好みしてサンプルを選んでも構わない。するとサンプルはその「与えられているはず」の確率になんか従わない。その場合、そもそも確率で話をすることは出来なくなります。

回答No.8

#7です。統計学的な話について、引き続きお付き合い頂きたいと思います。 > 真の観測値を観測できるとして,そのデータを元にして確率空間を推定することを考えます. > この時,真の観測値を増やしていくと,推定した確率空間は母集団に漸近するのでしょうか? →ご質問者のように「真の観測値を観測できるとして」を付ければ良いのですが、統計家の西内さんは、日経の記事で前半を言わずに後半を言ったため、評価を下げました。  真の観測値であれば、観測値から推定した母確率空間は、データ量とともに母集団に漸近していきます。  その推定のために、従来はパラメトリックベイズという方法が用いられましたが、現在では、ノンパラメトリックベイズという方法が用いられます。精緻なモデルで表現する必要があるからです。  従来のパラメトリックベイズは、事前分布として、正規分野やベータ分布など単純なモデル(分布関数)を用いますが、ノンパラベイズではディリクレ分布という自由度の高い(多峰性を許容する)分布関数を使います。ここまでが、ご質問に対する回答です。以下は補足です。  一方、真の観測値でないとき(バイアスがあるとき)は、現在の観測値から推定する際に、「過学習」という問題を起こし、母集団からかけ離れていきます(現在の観測値に漸近するからです)。ここで、構築された確率モデルに現在の観測値とは別の検証用の観測値を代入すると、大きな予測誤差が生じます。これを「汎化誤差」といいます。  過学習を防ぐために、情報量基準やクロスバリデーションをストッピングルールとして、学習するモデルの精緻さにストップを掛けます。そうして得られたものが、母確率空間です。  古典的統計の母集団は神のみしか知り得ませんが、人間が勝手に正規分布とかのモデルを決めて、観測値の評価P(O|T)を行います。それに対して、母確率空間は、得られた観測値から過学習にならないよう適度に均して構築したP(T|O)です。  観測数とともに、両者が漸近するのは、O∈T(真の観測値)のときのみです。 > 母集団から「正しく」無作為抽出できた観測値を真の観測値と呼ぶ以上自明な気もしているのですが, →おっしゃるとおりです。ただ、正しく抽出されていることを証明することができないため、統計屋は母集団と確率空間は似て非なるものと言って逃げています。

回答No.7

#2です。代数学になって、着いて行けないので降りましたが、質問があったのを見落としていました。統計学の立場から、という限定付きで質問に回答します。ご質問者の方、遅くなってスミマセン。他の回答者の方、話の腰を折ってスミマセン。 (1) 母集団を仮定した時,「データ(O)の出現頻度を論じる」とは具体的にどのようなことをするのでしょうか? →ご質問者がコメントに書かれたように、今、日本人男性の体重が、N(60,10^2)に従うと仮定しましょう。これに対して、今、O(観測)=90kgがあったとします。この値は上側3σですから、これ以上になる確率P(O|T)は0.0013(0.13%)しかありません。危険率1%で「この90kgの方は日本人男性の母集団から採取された標本ではない」と判断します。これが、Tに従うと仮定されるOの出現頻度を論ずる頻度論の考え方です。 (2) 後者のご説明の中で「真の観測値」「想定モデル」という言葉が出てきましたが,これはどういう意味でしょうか? →真の観測値とは、母集団から「正しい」無作為抽出(ランダムサンプリング)ができた時に得られる標本で間違いありません。サンプリングには「単純ランダムサンプリング」のほか「2段」「層別」「系統」「集落」のランダムサンプリングがあり、バイアスが生じないように時と場合に応じて手法が選択されます。つまり、世論調査とか視聴率調査とかが「正しい」ランダムサンプリングが行われているとき「真の観測値」と呼ばれ、それ以外はバイアスを持った観測値になります。 # 真の観測値は,母集団から無作為抽出ができた時に得られる標本,想定モデルは,母集団という理解で読み進めていたのですが,その場合,のちのご説明と整合性が取れないような気がしましたので,質問させていただきます. →「想定モデル」は母集団とは違います。母集団を考えるときの「単純な正規分布」も想定モデル、そうではなく補正を加えた分布モデルも想定モデルで、確率密度関数,確率質量関数で表されます。この分布関数=想定モデルに従う標本が母集団です。

uracomputing
質問者

お礼

追加の質問にも答えていただき,ありがとうございます. # 最後に一点質問をしております. 頻度論の例について理解することができました. P(O|T)を計算することで,標本Oが母集団Tから採取された標本かどうかの判断に利用することができるのですね. 観測値と真の観測値の違いについて一端を理解することができました. サンプリングについては奥が深そうですので,キーワードを参考にしながら自学したいと思います. 想定モデルは確率分布であり,確率密度関数,確率質量関数で表されることを理解しました. それに伴い,#2でご回答いただいた後半部分について一点質問があります. [質問] 真の観測値を観測できるとして,そのデータを元にして確率空間を推定することを考えます.この時,真の観測値を増やしていくと,推定した確率空間は母集団に漸近するのでしょうか? 母集団から無作為抽出できた観測値を真の観測値と呼ぶ以上自明な気もしているのですが,お時間ありましたらお答えいただければ幸いです.よろしくお願いいたします.

回答No.6

例としてサイコロを1回振ってその出た数字に興味がある場合を考えてみましょう。まず標本空間は、{(1),(2),(3),(4),(5),(6)}です。(丸数字はその数値が出ることを表すとします)ここで重要な点は、 (1)標本空間の元は排他的です。(1)と(3)が同時に起きることはない。 (2)標本空間の元は網羅的です。起きる結果の全てがある。 標本空間の元を標本点と呼んだり根源事象(事象という言葉が使われているので混乱しがちだが事象とは違う)とよぶ。 一方、我々は普通に、サイコロを1回振って【偶数がでる】確率は?といった表現を使います。【この偶数が出る】というのは自然な用語で事象ですわな。これを数学的にきちっと表現するため、集合であらわそうと言うわけです。すなわち{(2),(4),(6)}です。逆に言えば、事象{(2),(4),(6)}というのは(2)または(4)または(6)が起きるという意味を表します。 事象AがあればAが起きない事象も考えなくてはいけない。事象Aと事象Bがあれば、AまたはBも事象としてなければならない。(1)~(6)のどれかが起きること{(1),(2),(3),(4),(5),(6)}=Ωも事象です。その確率はP(Ω)=1です。試行してなにも起きない事象というのも変ですが、Ωの補集合である空集合も事象の1つに含めます。 さて、質問への回答ですが、標本空間のべき集合はσ加法族になっています。(しかも最大の)しかしFはそれに限ったわけではありません。例えば、サイコロの例では、{∅,{(1)},{(2),(3),(4),(5),(6)},Ω}もσ加法族です。 別の例、連続的な確率空間を考えてみます。1回の試行で0~10の間の実数値が得られるとします。もはや標本空間を{〇,〇,・・・}のように表現できません。標本空間Ω={x∈R|0<x<10}となります。このときある標本点が起きる確率と言うのが考えにくいのです。あえて言えば確率0です。0<x<3となる確率なら0.3とか言えそうです。だから、標本空間の元に確率を与えず、標本空間の部分集合に確率を与えようと考えるわけです。ただしどんな部分集合にも確率が与えられるわけではありません。それがσ加法族をメンバだけを事象とし確率を考えましょうということです。

uracomputing
質問者

お礼

追加の質問にもご回答いただきありがとうございます. また,お返事が遅くなってしまい申し訳ありません. σ-加法族の定義を見ながら確認させていただきました. 確かに,例示いただいたものもσ加法族になっていますね. 標本空間の元に対して確率を与えるのではなく,部分集合に確率を与える理由も, 連続的な確率空間を例に理解することができました. 現在持っている,確率空間に関する疑問は全て晴れました. 何日かに渡り,お付き合いいただきましてありがとうございました.

回答No.5

#2です。 統計学の世界から代数学(群論)の世界へ移ったようですので、私は降ります。

回答No.4

重々承知のことと思われますので、以下は蛇足です。 >事象Fを{男性,女性}とし・・・ と書かれていますが、確率論ではFはあるルールをもった集合体です。難しくいうと標本空間Ω上のσ加法族です。なので、空集合およびΩも含めなくてはいけません。でもって集合の集合ですので、例えば次のようになります。F={∅,{男性},{女性},{男性,女性}}

uracomputing
質問者

お礼

ご指摘いただきありがとうございます. 蛇足などでは全然ありません. 確率空間の定義を見直して,自分の理解が間違っていたことに気づくことができました. 確率空間は標本空間Ω,Ω上のσ-加法族F,確率(測度)Pの3つ組で定義され,ΩとFの組を可測空間と呼ぶ. FがΩ上のσ-加法族(=集合代数)であるとは,定義にある3つの条件を満たすものを指し,Fの元を事象と呼ぶ(このあたりの理解が間違っていました). 以降は疑問ですが,本来の質問の主旨とは外れてしまうため,お時間があればお答えいただければ...くらいに考えております. [質問] 確率空間の定義に「標本空間のσ-加法族」が含まれている理由が分かるようでしたら,教えていただけますか? [質問にいたった考え] 今回の例示でもありましたが,標本空間ΩのN個の元a_1...a_Nがあった時に,それらの元が含まれるか含まれないかに応じて2^N個の集合を構成することができ,これらの集合の集合はσ-加法族となっています.またこの時,Ωを決めると,Fは一意に定まる,という関係になっています. これらの各集合に対して確率Pを適切に(確率の公理を満たすように)割り振ることができれば,{Ω,F,P}は確率空間をなしている,と言えそうですが,ΩからFは一意に定まっているため,確率空間の定義にFを導入する必要性が分からなくなってきました. 考えうる可能性としては, (1) 定義がもともと可測空間{Ω,F}と確率{P}の組で表されていたのをばらしたため3つ組になった (2) Ω上の別のσ-加法族を構成する必要性がどこかで出てくる が頭の中にありますが,どちらも納得したようなしていないような気になります. お時間ありましたら,よろしくお願いいたします.

回答No.3

母集団:統計的な対象となる数値、属性等の集合。←あくまで集合と言っている。 XX空間:集合に何らかの構造を持たせたもの。確率空間=(標本空間、事象、確率)標本空間は空間とよんでいるけどこれは【構造】と言うより【全体】の意味合いが強く、やはり集合のこと。 母集団と標本空間の関係:標本空間の要素(標本点)の源泉が母集団。 母集団のとらえ方:本来ならば、母集団(population)は「測定する要素」でなく「測定値」の集合という意味が正確とおもう。なので、全国の高校生の身長という母集団を考えたとき、母集団はあくまで身長という数値の集合なので、質問者さんのいうランダムに抽出はできないわけです。ですが、母集団と言うとき(universe)の意味でも使います。この場合高校生そのものを指すのですね。この場合ランダムに抽出という試行が成立します。ランダムに要素を抽出し、興味があるのはその属性。標本空間も属性の集合。 そんなこんなで、母集団という言葉は統計で出てくる用語で、かならずしも確率論は必要ない。ので当然、母集団≠確率空間。が全数調査ができない(&論理的に不可能)ので、標本をとって逆に母集団を推定しようという流れにおいて多用される言葉であるから、重要なのは標本空間ということになる。なので、母集団は標本空間の源泉ですよと考える程度で良い。(と思う) 補足:自信はありません 母集団とよび母集合と言わないのは、集合は普通同じ要素は含めずに記述するからだと想像する。例えば、日本人を母集団として性別に関心があるとき、標本空間は{男性、女性}です。母集団のほうは同じ集合でも{男性、男性、女性、男性、・・・・}と一億2000万位の要素を意識しているからではないかしら、集合としては両者同じです。

uracomputing
質問者

お礼

ご回答いただきありがとうございます. 母集団について理解することで,確率空間との違いを理解することができました. 例えば,a_1さん...a_10さんの10人の高校生がいたとして,a_1...a_6が男性,a_7...a_10が女性であるとします. 母集団は{男性,男性,男性,男性,男性,男性,女性,女性,女性,女性}という集合. 確率空間は,標本空間Ωを{男性,女性},事象Fを{男性,女性}とし,確率Pをp(男性)=0.6,p(女性)=0.4と与えた時の{Ω,F,P}という空間 ということですね. こう考えると,kamiyasiroさまに教えていただいた,母集団は頻度論で利用され,確率空間は確率論で利用されるというご説明がよりしっくりときます. ランダム抽出についても理解が進みました. universeの母集団と,populationの母集団をごっちゃにして考えていたようです. 確かに,universeの母集団だと,一様にランダム抽出ができますね. 抽出した後の各個体について,ある属性値のみに着目した集合(populationの母集団)を構成すると,同じ属性を持つ個体が存在する可能性があるので,populationの母集団から無作為抽出した結果は一様ではなくなる,ということですね. 最後になりますが,長文でご説明いただきありがとうございました.

回答No.2

企業で統計的品質管理(SQC)を推進する立場の者です。 どのような文脈で使用されていたかで違うかもしれませんが、「母集団」「確率空間」は似て非なるものです。 最近の、データ科学(データサイエンス)の場合、母○○というものは最初に仮定せず、データドリブンで推定します。これを区別する必要があるから、言い方を変えているのだと思います。 Tを理論(モデル)、Oを観測(データ)とすると、 (1)古典統計では、P(O|T)という条件付き確率を論じます。このときTを母集団と言いますが、これはあくまで仮説で、実体は神のみぞ知るものです。古典論は、Tに従うOの出現頻度を論じることから「頻度論」とも言います。 (2)統計科学、データサイエンスでは、P(T|O)という条件付き確率を論じます。目の前の観測データから、それを生んでいる母集団Tを推定しますが、それが「確率空間」です。クリギングやベイズを使って確率密度、確率質量として与えられるので、そう呼んで区別するのでしょう。 参考文献ですが、E.ソーバー(2012):『科学と証拠』,名古屋大学出版会、を上げておきます。 また、ご質問者の、『標本空間から完全ランダム(というか完コピで)に要素を取り出すことはできない』というのは重要なことです。標本を増しても、母集団と確率空間は漸近しないことを言っているのです。 真の観測値があったとしてそれが想定モデルに含まれるなら,最小2乗誤差を求めるときに基準となる平均(古典論的母集団仮説)とベイズの損失関数(情報量基準やクロスバリデーション)を求めるときに基準となる平均(確率空間)は等しいが,そうでないときは異なる.言い換えれば,よほど精緻なモデルを前提としない限り(単純な1次近似程度では),観測値がそのモデルにピッタリ包含されることはないから両者は異なるのです。つまり、P(O|T)とP(T|O)において、O∈T(完コピ)ならば、P(O|T)=P(T|O)になります。 後者の参考文献として、渡辺澄夫(2012):『ベイズ統計の理論と方法』,コロナ,165ページ、を上げておきます。でも、これはかなりハードルの高い本です。 難しい回答ですみません。でも、統数研の樋口所長がご講演されると、最初にこんな話が出てきますよね。

uracomputing
質問者

お礼

ご回答いただきありがとうございます. 例として,日本人男性の体重の分布について考えました. ・この時,μ=60,σ=10と仮定し,データの出現頻度を論じる.  この時のN(60,10)を母集団と呼ぶ. ・この分布が平均μkg,標準偏差σkgの正規分布にしたがうと仮定して,  実際のデータからμ,σを推定する.この時推定した分布のことを確率空間と呼ぶ. と理解しました. また,後者も含め,二点質問があります. (1) 母集団を仮定した時,「データ(O)の出現頻度を論じる」とは具体的にどのようなことをするのでしょうか? (2) 後者のご説明の中で「真の観測値」「想定モデル」という言葉が出てきましたが,これはどういう意味でしょうか? # 真の観測値は,母集団から無作為抽出ができた時に得られる標本,想定モデルは,母集団という理解で読み進めていたのですが,その場合,のちのご説明と整合性が取れないような気がしましたので,質問させていただきます. おすすめいただいた本を読んでいない状態で大変申し訳ないのですが, よろしくお願いいたします.

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

 同じで良いと思います。母集団という言葉は「測定とは母集団からランダムに要素を取り出すことで、取り出した要素をサンプルと呼ぶ」という文脈で使う。だから、母集団てのはあらゆる測定値(ベクトルでももちろんOK)を要素とする確率空間です。が、「測定値とは測定して得た結果のことで、測定とは測定値を得ることだ」という堂々巡りに過ぎないんですから、数学的には特に意味はなく、つまり何が要素でも構わない。で、普通、母集団と言うときにはサンプルの集合の統計と母集団との関係に興味があり、確率空間と言うときにはサンプルや要素の話よりも空間としての構造に興味がある。

uracomputing
質問者

補足

ご回答いただきありがとうございます. 回答の中で2点追加でお聞きしたいことがあります. 1. 「母集団てのはあらゆる測定値(ベクトルでももちろんOK)を要素とする確率空間です」という部分は,「母集団は標本空間Ω,事象F,確率Pの三つ組からなる確率空間であり,標本空間はあらゆる測定値を要素とする」という理解であっているでしょうか? 2. 理解があっている場合「測定とは母集団からランダムに要素を取り出すことで、取り出した要素をサンプルと呼ぶ」の「ランダムに要素を取り出す」という部分に違和感を覚えました.母集団を仮定した時点で各測定値が測定される確率は与えられているはずなので,標本空間から完全ランダムに要素を取り出すことはできないと考えたためです. どのあたりで理解を間違えているのか,教えていただけますでしょうか? よろしくお願いいたします.

関連するQ&A