- 締切済み
離散と連続での確率の和および積分の考え方
普通、確率は例えば全部足したら1になるというような場合、Σpi=1というように表記します。一方で連続的なものは∫pdx=1となります。この場合、piは確率であり無次元で、その和をとっても無次元ということは理解できます。連続型の場合、pdxを確率とみなすという考え方になるのでしょうか。またpは確率密度関数ということになると思います。その定義はどのようなものなのでしょうか。pの次元はdxの逆数の次元となるということになりますが、pの定義を問うとしたら∫pdx=1としてそういうものという陰的な定義となるものでしょうか。そして例えばlim(dx→0)(dx区間の存在確率/dx)とかでしょうか。これだとデータがあっても計算できないわけですが。 実際に計測された大量のデータから確率密度関数を求めるという操作を行う場合、どのような手順になるのでしょうか。よろしくお願いします。離散量と連続量での確率の取り扱いということになるのかもしれませんが。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- ask-it-aurora
- ベストアンサー率66% (86/130)
いくつか基本的と思われることの理解や区別ができていないのではないかと、失礼ながら質問文を読んで最初に感じました。(言葉は悪いのを承知で書くと、新しく聞いた小難しい単語を散りばめた文章を読まされたような印象です。)質問に答えていませんが(というか質問文が〈答え〉を定めるほど正確でハッキリとした性質のものではないので)、専門家でもない者ですら気がつく程度の漫然としたコメントを以下に書きます。 質問文にて「∫pdx=1」などと書いているのは確率と確率密度関数の区別がついていないのではと少し疑ってしまいます。意外に思われるかもしれませんが、確率密度関数の値は1よりも真に大きい(どんな)値も取り得ます。指数分布の確率密度関数を考えてみればよいでしょう。あと pdx は確率ではありません。 また母集団と標本の区別もついていないように見えます。扱っているのが(大量のデータであろうと)母集団ならば確率質量関数にすべては集約されます。そもそも連続的でないので確率密度関数の出る幕はありません(が、連続近似としては役に立つかもしれない)。扱っているのが標本ならば、できるのはせいぜい母集団分布の確率密度関数を何らかの意味で近似することでしょう。「求める」のは無理です。近似ならば母集団分布としてどういうモデルを想定するのかとか(e. g. 正規分布と仮定して母数だけを推定する)、どんな尺度に関して近いものを選ぶのかとか(e. g. 母数だけの推定で済ませるのならば尤度関数の値を尺度にする)を定めておかなければ具体的な手順を示すのはどんな人にとっても無理そうです。そして、それらは(示されていない)扱っているデータの性格や分析の目的と密接に関連しているでしょう。 他の回答にある確率密度関数を累積分布関数の「微分」として定義するのは標準的なものです。(ただし、いつ存在するかとか、厳密にどういう意味かは難しい。)その回答に対するコメントを見るとヒストグラムにおける階級の恣意的なことを気にされているようです。恣意的ではない視覚的表現のひとつは経験分布関数(empirical distribution function)のグラフです。ただし直感的に解釈しにくいのが難点です。探してみてください。 最後に、技術的なことはともかく「なぜ確率密度関数を求めたいのか」や、「その目的を達するのに確率密度関数を求めるというのは適切な選択か」ということの方がよほど問題な気がします。 Far better an approximate answer to the right question, which is often vague, than an exact answer to the wrong question, which can always be made precise. ---J. Tukey
- f272
- ベストアンサー率46% (8467/18126)
確率密度関数f(x)を定義する前に累積分布関数F(x)を定義して,f(x)=dF(x)/dxとするのをよく見かけます。F(x)についてはF(x)=Pr(X≦x)で定義します。 私が実際に計測された大量のデータから確率密度関数を求めるとしたら,データからヒストグラムを作ります。その後は,データに合うように適当な分布(例えば正規分布とか...)を当てはめます。
お礼
回答ありがとうございます。連続量として定義して示すというのは数学の微分積分論が背景となって論理性が揺ぎ無くなっているという風に理解できると思います。累積分布関数とはxより値が下である確率(未超過)で定義されると思います。 一方、実際のデータで処理するとなった場合、ヒストグラムを作っていくのですが、短冊(ヒストグラム)の幅はどれくらいか?という疑問があります。パッと出てきませんが何らかの指標がありましたね。でも、その指標は数学的なものではないように思うのですが。実際の処理をするところで解釈が存在し、その解釈の幅もまちまちという印象を持ってしまうのです。短冊の幅のゼロの極限をとり、もちろん確率もゼロになるけれども、その比率として確率密度関数が定義されるということはないでしょうか。すなわち、(短冊の間にある確率)÷(短冊の幅)で(短冊の幅→0)の極限が確率密度関数ということにはならないでしょうか。実際の離散データでやる場合はその近似を求めるということですが。