• ベストアンサー

ベイズ統計の初歩的な質問

ベイズ統計を復習しているのですが、初歩的な質問があります。 例えば、全人口の約0.1%を占める人がかかる病気があります。個人が病気を持っている確率をP(disease)、もっていない確率をP(no disease)とすると P(disease) = 0.001 P(no disease) = 0.999 となります。この病気を持っているか否かを知るためのテストが開発され、臨床試験において以下のような結果が出ました。このテストを、実際に病気を持っている人に行うと、陽性(+)と陰性(-)が出る条件付き確率は P(+|disease) = 0.98 P(-|disease) = 0.02 となり、実際には病気にかかっていない人に行うと P(+|no disease) = 0.03 P(-|no disease) = 0.97 と出たとします。 目標は、テストで陽性が出た場合に、それが本当に病気にかかっていることを示す確率、すなわちP(disease|+)を計算する事です。式に当てはめると、以下のようになります。              P(+|disease)P(disease) P(disease|+) = -----------------------------------------------------         P(+|disease)P(disease) + P(+|no disease)P(no disease)           0.98 x 0.001 P(disease|+) = ----------------------------         0.98 x 0.001 + 0.03 x 0.999 P(disease|+) = 0.032 (非常に見苦しい点お許しを)これは3.2%というかなり小さい確率となります。これは、P(disease)が0.001と非常に小さい事に起因し、母集団の中で病気にかかっている人が少なく、P(disease|+)自体がこの母集団に対して計算されている故と理解できます。 でも、一人の患者が知りたい情報は、テストが陽性だったときに限って、実際に病気にかかっている確率です。この計算をするときに、ベイズ的に事前分布を主観的に選べるとすると、P(disease)をどのように設定すべきなのでしょうか。これを0から1までの広範囲で変化させると、どのような結果も得られてしまいます。一番信頼できるのは、データが既にあるP(disease) = 0.001なので、これを使うべきことは理解出きるのですが、P(disease|+) = 0.032という数値はちょっと直感的に違うと思うのですが。ひとりの患者にとっては、P(+|disease) = 0.98を一番有用な情報とするのが無難なのでしょうか。 ベイズ統計の基本的な解釈で引っかかった点なので、ご教示のほどよろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • arrysthmia
  • ベストアンサー率38% (442/1154)
回答No.2

何が有用か?は、主観的な判断なので、 その結論を、数学的に与えることはできません。 要するに、どう感ずるかというだけの話ですから。 しかし、「有用な情報」に関する薀蓄をひとまず脇に置いて、 診断とは何か?を考えれば、それは、個々の患者に関して、 その人が病気に罹っている確率を見積もることです。 P(disease|+) の値は、その参考になります。 P(disease) = 0.001 や P(+|disease) = 0.98 は、値が 0 や 1 に近いので、 何か確実なことを言っているような感じはしますが、 P(disease) ≒ 0 は、単にその病気が珍しいこと、 P(+|disease) ≒ 1 は、その検査の感度が高いことを示しているだけで、 検査が陽性だった患者の診断について、何の情報も表していません。 P(disease|+) = 0.032 という値が小さいことから「有用でない」と 考えているように見受けられますが、とんでもない。 世間一般的に P(disease) = 0.001 である病気が、 ある患者について P(disease|+) = 0.032 と判ったということは、 検査が陽性だったことによって、その病気である疑いが 32倍も高まった と解釈すべきものと思われます。

punichapi
質問者

お礼

arrysthmia様。 お礼が大変遅れてしまいました。ご指摘もっともです。ただ、陽性である確率が32倍に膨らむというという感覚が、なかなか主観的に分かりづらいという感じがして、モヤモヤしました(解釈という意味で、おっしゃられている事がクリアでないということではありません。悪しからず)。なにか、確実性についての数値的な指標、例えば、このテストで陽性が出れば、○○%の確率で病気だ、とすっきり言えない点に、なにか引っかかるものがあるというか・・・。こういったテストは何を診断しているのかな?という感覚が残ってしまう。まだまだ私はfrequentistなのでしょうか(笑)。 回答ありがとうございます。

その他の回答 (1)

  • cosmos-kt
  • ベストアンサー率29% (43/147)
回答No.1

ベイズ統計の場合には、基本的に確率遷移モデルとして統計データを解析するときなどに用いることが多いですね。 この場合、一番信頼できるデータは「0.01」であるが、もしも何らかの原因で伝染したり、問題が生じるなどの場合には、「0.032」になります。そして、「0.98」の確率で無事であるというのが普通のことだと思います。 難しいのは、この後の処理で・・・解釈としてみれば、確かにポジティブな値の方が良い場合もありますし、ネガティブな値の方が良い場合もあります。人間という生き物が、「どちらの情報が良いのか?」という難しさを抱えているからであるというのが本当のところです。 現実としてみれば、両方の値を正直に示すことが、大事ではないでしょうか?

punichapi
質問者

お礼

cosmos-kt様 お礼が遅れてしまい申し訳ありません。 主観が入るのがベイズの独特な点だと思いますが、なかなか解釈がすっきりしない時があるので、もやもやする一例でした。それ故、素直に出た値を示すことが重要だという事に同意です。 回答有難うございました。

関連するQ&A