• 締切済み

ROC曲線のAUCの分析方法

特定の状態の有無を調べるスクリーニングテストをして、その結果からROC曲線(Receiver Operating Characteristic curve:受信者操作特性曲線)を作図しています(エクセル手計算です)。 ROC曲線下面積のAUC(Area Under the Curve)は、スクリーニングテストの精度を表しているとされており、参考書をみれば0.5-0.7が低精度、0.7-0.9が精度中等度、0.9-1.0が高精度となっています。 AUCについて3点質問があります。 1.AUCの結果からこのスクリーニングテストの精度は妥当である、とする際の計算方法(RやSPSSを使わずに手計算で計算する方法) 2.1.の結果は、t-検定や相関係数の無相関検定のように、有意確率がサンプル数に依存するか 3.2つのスクリーニングテストの精度を比較する方法(2種の相関係数の差の検定のように、2つのAUCの差を検定を手計算でする方法) ご存知の方、これらについて教えていただけませんか。 よろしくお願いいたします。

みんなの回答

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

 ROCのArea Under Curveに関して有意確率、t-検定などの言葉が出て来るところを見ると、もしかして、「スクリーニング検査はランダムな答を出す(判別能力のない)ものである」という帰無仮説の検定について仰っているのだろうか。それとも、実験で得たAUCの値に含まれる誤差の分布についてお考えなのだろうか。  後者だとすると、まずは「適当な仮定のもとで、閾値Tに於ける条件付き確率  p(T) = P( テストがPositive | ホントにPositive)  q(T) = P( テストがPositive | ホントはNegative) をデータから推定せよ」という問題から考えるべきかと思います。たとえば、ロジスティック回帰分析でfittingを行えば、p(T), q(T)とそれぞれの誤差範囲が推定できる。これを使ってROCのAUCの誤差の分布も推定できそうに思われます。  しかし実務上は、その誤差はあんまり問題にならんように思います。というのは: (1) 最終判定(Positive/Negative)が判明している多数の例に於いてスクリーニング検査の結果が分かっている、というのでなくては、それが実際スクリーニングになっているのかどうか判断しようがない。簡単に実施できるからこそスクリーニング検査なのだから、最終判定ができたものの殆どについてスクリーニング検査を実施するのは容易のはず。もしそのデータが少ないなら、それは、そもそも最終判定が得られた例が少ないということだが、そういう場合、スクリーニング検査に果たして意味があるか? (2) スクリーニング検査法の候補が複数あって、それらの間には検定に掛けなくては分からない程度の違いしかないのだったら、判別の性能よりも、他のポイントを比較する事が重要だろう。 と思われるからで、つまり、もっとデータを取ってから判断すべきでしょう。 1.について、「0.5-0.7が低精度」云々は、トンチキな著者がイーカゲンなことを抜かしてやがるだけかと。なぜなら、「このスクリーニングテストの精度は妥当」という判断は、そもそも数学の対象ではありえません。スクリーニングのコストと効果、false positive, false negativeの際に発生する問題(false negativeで見逃したためにそりゃもお大変なことになった、false positiveで精査がどっさり発生し、精査結果が出るまで3年待ち、など)の重大性の程度に鑑みて、実務に於ける価値観に従って判断すべきものであり、これによって閾値の設定も決まる訳です。 2. について、サンプル数が多いほどROCが滑らかに描ける、という簡単な話では? 見た目にもカクカクしているようでは、(データのゆらぎを無視しても)ROCを階段関数として積分したときと、台形則で積分した時との違い程度(order)の誤差がAUCに生じうることは明らかでしょう。 3. について、これは上記の(2)の話。AUCが1に近い方(カーブが左上の角に近づく方)がまし、という基準だけで判定するのは、あまり利口とは言えないでしょう。検査の種類によってコストも適用条件も違うし、また、検査にとっての「得手不得手」というものもあります(特に、判別の対象となる事象がそもそも純粋ではなく、複数の要因で生じた似たような現象が混合したものである場合)。複数のスクリーニング検査を旨く組み合わせると性能が上がる、という場合もあるでしょう。

duoshaoqia
質問者

お礼

stomachmanさん、ご回答ありがとうございました。 現在、既存のテストをある状態のスクリーニングに応用できないか調べています。 サンプル数は約800で、SPSSの入ったPCを借りてROC曲線の作図と分析をしたところ、 AUC:0.716 標準誤差:0.043 漸近有意確率:0.000 漸近95%CI:0.631-0.801 という結果が出ました。 この結果は、AUCが0.5(スクリーニングの結果が完全にランダム)を帰無仮説としたときに、AUCが0.5だと言えない(スクリーニングの結果がランダムであるとは言えない)という 結果である、と認識しています。 ↑この認識は間違っていませんよね? 1.毎回SPSSの入っているPCを借りることはできないので、エクセルで計算(AUCが0.5であるという帰無仮説に対する検定)をできるようになりたい 2.AUCは大きい値である方が良いスクリーニングなので、AUCが大きくなるように条件を変更するのとともに、サンプル数の制限(例えば年齢や性別などでわけて、それぞれの場合分けで分析したら異なる結果になるか)をしたときに、AUCが高くなってもAUC=0.5の帰無仮説に対する検定結果がサンプル数に影響してしまうのではないのか 3.2に付随して、場合わけしたときにそれぞれのAUCの値が統計的に大きいのか小さいのかを判断して、最も良いパターンを見極めたい という理由で3つの質問をいたしました。 3つ全ての質問において、私自身がROC曲線の分析方法の正しい知識が不足しているのがそもそもの問題であることは重々承知しています。 知識の足りない部分を補完するために、質問しました。 質問の1について、計算式かもしくはその流れがわかれば、もう少し分析の考え方を理解できると思います。 質問の2について、例えば相関係数が、サンプルが30の時のr=0.3と、サンプルが100の時のr=0.3では意味が違う(サンプル数が有意確率に影響する)と思います。 AUCも同じじゃないのか、と思っています。 質問1の計算式等や考え方がわかれば、この問題も解決できると思います。 質問の3についても同様で、質問1,2が理解できれば自ずから理解できると思います。 もう少し詳しく教えていただけないでしょうか? よろしくお願いいたします。

関連するQ&A