- 締切済み
統計学における分布の予測
失礼します。 私は医学部大学院で研究を行っている者です。 現在、血中に存在するある因子の濃度を測定しているのですが、解析をしていて疑問に思ったことがあります。 一般的に医学データは正規分布に従うことが少ないと、医療統計学の本には書いてあり自分もそう認識しています。しかしγ-GTPやALTなどの因子は対数正規分布を示すと言われています。 そこで、正規分布(対数正規分布)を示す因子の共通点(例えば分泌場所など)を考えてみたのですが、なかなか推定できません。 体内因子の分布というのはある程度予測できるものなのでしょうか? そしてそれはどのような条件なのでしょうか? 統計学、生理学共に知識が少なく申し訳ございませんがご教授頂ければ幸いです。
- みんなの回答 (3)
- 専門家の回答
みんなの回答
- Ishiwara
- ベストアンサー率24% (462/1914)
分布の選択基準は、 (1) 実際の分布形が、その分布のモデルに似ている (2) 原理的に、対象の発生メカニズムが、その分布が前提とするメカニズムに近い (3) 解析がしやすい などでしょう。 ところで、正規分布というものは、種々雑多な要因に影響される統計量の「究極にあるもの」と考えられます。表現は悪いが「分布のゴミ捨て場」みたいなものです。したがって、上記(2)のメカニズムがまったく特定できないときには、ほとんど正規分布が使われます。 例えば、毎日定時に家を出る会社員が会社に到着する時刻のバラツキは、それこそ性質も異なる多くの要因によって起こります。そのようなときには、正規分布しかないわけです。しかし、実際のデータが、例えば左右非対称に大きくゆがんでいたら、多くの要因の中に、非常に寄与率の高い何かが存在すると考えるべきであって、単純に正規分布として扱うべきでありません。 一般論だけで、すみません。
- stomachman
- ベストアンサー率57% (1014/1775)
「予測」とは言ってもデータに基づく現象論的な帰納じゃなくて、理論からの演繹的予測のことですね。 ガウスの誤差論から出て来たのが正規分布です。何か同じものに対するある測定を繰り返し行うとし、ただし、測定のプロセスの中に、ある同じ分布に従うランダムな誤差要因が沢山加わっていて、それらが加わった結果しか測れないものとします。すると、誤差要因の分布がどうであれ、結果の分布は正規分布に近づく。これがガウスの証明したことです。 で、これは確率論、すなわち「ランダム」ということに関する数学であって、統計学ではない。 一方、医学におけるナニカの分布とはどういう意味かというと、同じ人に間髪入れず繰り返し同じ検査をするんですか?違うでしょ。沢山の人を相手に同じ検査をする。だからこれは確率論ではなく統計学です。 その場合、純粋な数学理論からの演繹として分布の予測ができるということはあり得ません。そうではなくて、(質問で仰る通り)生理学的モデルからの予測ということになります。だから数学の話じゃなく、生理学の話です。 さらにこの場合、正規分布にならないのが当然です。「多数の被験者の測定結果がばらつく原因は、ガウスの理論のようなメカニズムによるものではない」というのが一つの理由です。が、それよりももっと本質的な理由があります。 例えば、メタボリックシンドロームに分類された人の最高血圧を測ったらどうか。ある値の所に明瞭なカットオフがある、奇妙な分布を示すでしょう。それはもちろん、元々健康な人を血圧やその他の測定値で恣意的に分類したのがメタボリックシンドロームというクライテリアだからです。測定対象が偏って選ばれているために、分布もへんてこな格好になる。 では恣意的選別をやめるために、あらゆる人を対象にして血液のpHを測ったとします。ところが、pHが5なんて人はいません。生きていられる範囲というものがあるわけで、従って結果が正規分布(裾野が幾らでも広がっている)に従う筈がない。あるいは、身長を測ったらどうでしょうか。10cm以下の人も500cm以上の人も絶無でしょう。これも同じ事で、結局「生きている人」というだけで、すでに対象が選別されている訳ですね。 ご質問の血中因子の話だとどうでしょうか。 まず、どういう血液を測定対象にしているか、そのクライテリアが問題であることがお分かりでしょう。実際上、何かの症状や疾患がある(あるいは、たとえば集団検診なら、明らかな症状がない)人ばかり選んでいるという、偏りがあるに違いない。なぜなら、その値が生命あるいは疾患と関係があるからこそ測ってるんですもん。つまり、「あるクライテリア(プロトコル)に当て嵌まる人についての分布」というものを相手にしているんです。だからある範囲に集中した分布を示すのがむしろ当然でしょう。(逆に言えば、もし「そのクライテリアがどういうものなのか不明だ」ということだと、統計を取るのは無意味です。) さて、ご質問にある対数正規分布に似た分布を示す因子はどうでしょうか。そういう分布に見えるということは、少なくとも裾野が広がっている。ある範囲に集中してはいないじゃないか。これは以下のように考えられます。 γGTPやALTが何なのか知りませんけれども、それらはおそらく、(pHとは違って)生命や明らかな自覚症状とは強く関係していない因子なのでしょう。だから、「見た目では正常な人」というクライテリアで(偏って)被験者を選んだ場合に、見た目では正常なのに異常な値を示す事があって、分布の裾野がある程度広がっているのだと思われます。言い換えれば、「ともかく無症状である」人と、「疾患を持っていないという意味で正常」の人とがクライテリアの中に混在していて、きっと、後者がピークを形作り、前者が裾野の広がりを作っているのでしょう。 もちろん、こういう場合こそ、検査に医学的意味がある訳です。(ですから、「検査対象とする因子」というもの自体にも、「医学的に意味のある検査だけ選んでやっている」というバイアスが掛かっていることが予想されます。) すると、ご質問は「あるクライテリアに属する被験者に関する生理学的モデルから分布が予想できるような因子は、どんな性質を持つだろうか。」という問いです。が、クライテリアに関して適切な条件を設けずに、この問いは意味をなすでしょうか。いやその前に、この問いには医学的・生理学的意味があるでしょうか。 ここまでの議論をご覧になって、なおこの問いを追求なさりたいと仰るのであれば、話のクライテリアを明確にするために(ご質問も回答も)もう一度仕切り直すべきではありますまいか。
- backs
- ベストアンサー率50% (410/818)
全体的に質問の意味がイマイチよく把握できないのですが、、、 > しかしγ-GTPやALTなどの因子は対数正規分布を示すと言われています。 分布が片側に偏っている場合が多いので対数変換などを施して正規分布に近似させて処理するということです。 > 体内因子の分布というのはある程度予測できるものなのでしょうか? 分布を予測するとはどいういうことを意味しているのでしょう?得られたデータから完全に母集団分布を予測することは不可能で、検定などの前提条件とされている正規性(分布が正規分布に従っているかどうかということ)は"ある程度"認められればよいわけで、絶対に完全に正規分布に従っているという必要はありません。 [γ-GTP 正規分布]といったキーワードでgoogleすれば色々と出てくるようです。
補足
説明不足でわかりずらい所、ご回答いただき有難うございます。 はい、backsさんがおっしゃる通り、γ-GTPやALTは分布が偏っているので、対数変換して正規分布に近似させることが多いようです。 しかし、生体内物質では対数変換しても正規分布に近似できないものももちろん沢山あると思います。 また、データを得ればそのデータの歪度や尖度などからそのヒストグラムが正規分布をとる傾向にあるのかどうかも解ります。 私の質問の意図としましては、 「生体内物質の濃度を測定する前(データを得る前)に、その生体内物質の濃度がどのような分布を取るかの予測が出来るのかどうか」 ということです。例えばこの物質はどこから分泌されて、どのような代謝経路を辿り、どのような役割をしているかが解っている場合、実際の濃度のデータを得る以前であっても、その物質濃度が正規分布、対数変換正規分布、非正規分布の中でどの分布の傾向を取るのかを予測することが可能かどうかと思いまして… 私自身もまさしく[γ-GTP 正規分布]で検索したのですが、予測のことは載っていなかったので質問させていただきました。