Quantifying the Added Value of a Diagnostic

Review
Quantifying the Added Value of a Diagnostic Test or Marker
Karel G.M. Moons1,*,†, Joris A.H. de Groot1,†, Kristian Linnet2, Johannes B.R. Reitsma1 and Patrick
M.M. Bossuyt3
+ Author Affiliations
1
Julius Center for Health Sciences and Primary Care, UMC Utrecht, The Netherlands;
2
Section of Forensic Chemistry, Dept. of Forensic Medicine, Faculty of Health Sciences, University of
Copenhagen, Denmark;
3
Department Clinical Epidemiology, Biostatistics & Bioinformatics, Academic Medical Center, University of
Amsterdam, the Netherlands.
* Address correspondence to this author at: Julius Center for Health Sciences and Primary Care, University
Medical Center Utrecht, P.O. Box 85500, 3508 GA Utrecht, the Netherlands. Fax +31-88-7555485; e-mail
k.g.m.moons@umcutrecht.nl.
Clinical Chemistry 2012;58:1408-1417
診断用検査またはマーカーの付加的価値の定量化
概要
実際の診断上の精密検査は、特定の症状やサインを示す患者から始まり、その患者は特定の標的疾患
を持っている疑いがある。一連の検査の段階で、診断情報の流れは一般的に記録され、文書化されて
いる。患者の既往や健康診断やその後の検査とは異なる結果から伝わる診断情報は、程度に差はある
が、重複や相互依存に関するものである。このことは、ある検査またはバイオマーカーの診断能力が、
前回の検査から得られた情報に対して、条件付きであるということを示唆している。診断的な検査や
バイオマーカーの正確性についての重要な論点は、これらの検査が診断上の精密検査を、すでに利用
可能な診断的検査の結果を越えて改良できるか否かということである。4 つのシリーズの中の 2 つ目
のレポートである本報では、新規診断的検査法またはバイオマーカーの付加的な価値を定量するため
の、いくつかの方法について概説する。これには ROC 曲線化面積や純再分類改善度、統合判別改善
度、予測曲線、決定曲線解析が含まれる。これらの方法は、それぞれ経験的なデータの使用で例証さ
れる。本報では、分別や疾患分類の相対的増加についての報告が、診断検査またはバイオマーカーに
よる増加する価値に対して、洞察を得るのに適切であると繰り返している。また私たちは、有益な方
法での全診断的精密検査の正確さを表現するために、判定分析による測定法の使用を推奨する。
実際の診断的精密検査は、特定の症状やサインを示す患者で始まる。これらの症状やサインによって、
通常はいくつかの潜在的な疾患の疑いが生じるが(鑑別診断)、精密検査はしばしば最初の潜在的疾
患のリストから、特定の疾患または障害かを含めるか除外することが目的とされ、いわゆる標的疾患
と呼ばれている(1-5)。例えば、赤く浮腫んだ足をした男性は深部静脈血栓症、触知できるような胸部
1
結節を持った女性は乳がん、項部硬直や発熱がある子供は細菌性髄膜炎の疑いがあるかもしれない。
この標的障害は鑑別診断の最も多くの重篤な障害になりうる(見逃さないためのもの)が、ただしこ
れは最もそれらしいものである。
診断的精密検査は通常、たくさんの診断情報(検査結果)が得られる一連の連続した組み合わせで構
成される。原則的に、それぞれのステップの後に、内科医は直感的に標的疾患が存在する可能性に関
する判断に情報を組み込み、おそらく鑑別診断リストにある他の条件でさえも組み込んでしまう。情
報の最初の部分には、多かれ少なかれ患者の既往や健康診断結果が含まれている。一般的にそうであ
るように、もし疾患の存在が不確かなままである場合には、次の段階の検査がしばしば段階的に行わ
れる。これらの追試は簡便な血液や尿の検査から、画像診断や電気生理学的検査や遺伝学的検査まで
多岐にわたり、最終的にはさらに侵襲的な検査である生検や血管造影、関節鏡検査にまで及ぶ。これ
らのその後の検査の情報は、暗黙のうちにこれまでの得られた検査情報に加えられ、標的疾患の確率
が調整される。問診や健康診断からの情報は、ほとんどいつも診断業務の中で得られることから、臨
床診断がただ単一の検査、または技術の結果のみに基づいていることはほとんどなく、むしろ診断業
務はそれ自体が多変量(多試験)であり、段階的な過程が関わっているように感じられ、このような
中でケアの提供者は次の検査によって既に知られていることに、さらに情報を加えることができるか
どうかを決定しなければならない(6-8)。
診断上の検査やバイオマーカーの研究には、このような段階的な診断過程を反映し、すでに利用可能
な情報を越えた、次に続く診断上の検査の付加価値を理解することを目的としなければならない。次
に続く検査やバイオマーカーの診断上の情報は、より簡便な以前の検査結果によってすでに伝えられ
ていることが結果的に分るかもしれない。単独で考慮されたとき、次に続く検査またはバイオマーカ
ーにより、診断的価値が見出されるかもしれないが、全体的な診断的精密検査の内容内で評価される
ときには、そういうわけには行かない。しばしば異なる検査で、また異なる範囲で、同じく潜在的な
病原過程を測定したり、その結果として同じ診断情報が提供されたりすることがあるため、このよう
なことが起こりうる。統計用語では、患者の履歴や健康診断、またはそれに続く試験から得られたも
のであっても、これらの異なる試験による結果は、程度の差こそあれ相互に依存している(9-11)。し
たがって、診断制度研究の主要な論点は、特定の(新しい)検査またはバイオマーカーの診断正確度
ではなく、むしろすでに文書化され、標準的に使われている診断情報からの利用可能性の他に、既存
の精密検査の診断正確度が改善するかどうかということである。
シリーズの第二の報告は、特異的な(新しい)診断上の検査またはバイオマーカー評価を定量するた
めに、利用可能な方法の概要を示す。この目的は、必ずしも以前の検査またはバイオマーカーを置き
かえる必要はなくて、むしろそれらを補完することである。改善された疾患の有無の鑑別能の観点で、
私たちはある検査が、先立つ検査結果に情報を追加するかどうかを評価することに焦点を当てている。
経験的な例:深部静脈血栓症が疑われるときの診断
次に続く診断上の検査の付加価値の評価のための方法を説明するために、私たちはこのシリーズの最
初のレポートと同じデータ(言い換えれば、深部静脈血栓症(DVT)が疑われるプライマリーケアの
患者さんで、以前報告された研究の中のデータ)を用いる(12,13)。簡単に言うと、2086 名の DVT が
疑われる患者がいて、DVT の疑いは患者に足の浮腫、発赤、または疼痛が一つ以上該当することに
2
よって定義される。全ての患者に、問診や健康診断や D-ダイマー検査によるインデックステストを
含む、標準的診断精密検査が実施されている。
このテストは更なる管理を決めるために使われる場合、基準ゲージは現在の臨床診療に沿って反復圧
縮超音波検査で構成された。この参照検査はインデックステストの結果と無関係に全員に実施され、
これらのインデックステストの結果は公表しなかった。
全体で、患者も含む 2068 名のうち 416 名
(20%)
が超音波検査で DVT がみられた。私たちはこれらのデータは、このレポートでの目的を説明するた
めだけに使用し、決して当面の臨床的な問題のための最適な診断上の精密検査を定義する、またはト
ピックスの既存のレポートの私たちの結果と比較するためのものではないことを指摘するでしょう。
ここでの私たちの目的は、D-ダイマーバイオマーカーの測定値が DVT に罹患している(参照検査を
含む更なる精密検査が求められる)、または罹患していない(更なる精密検査が必要ない)の正しい
鑑別における問診や健康診断検査の結果から、診断検査の結果(変数)に付加価値を提供するかを定
量するための方法を例証することである。私たちはもともと文書化された診断変数のサブセットのみ
を使用していた(表 1)。加えて、参照検査は現在のルーチン業務で行われているものを用いたが、
これは完全ではないかもしれない。不完全な参照検査を用いることによる潜在的な影響や、この問題
を取り扱う方法は極めて重要であるが、これらの問題はこの報告の焦点を越えたものであり、他の所
でカバーされている(14-18)。
表 1 基準ゲージのアウトカムと、比較されたそれぞれの診断変数の分布や正確性
3
表 1 はそれぞれの診断検査結果と、DVT の有無との間の関係も示している。これらは単検査診
断正確度手法である。もしあるものが、これらの単検査の正確度の結果から最も有望な検査を選
ぶ必要があるなら、不可能ではないにしても難しいだろう。履歴や健康診断検査は、決して特徴
的ではない。変数の中には感受性は高いが感受性が低いものがあり(例えば、足の外傷や歩く痛
みの欠如)、一方では他の検査は高い感受性を示し低い特性を示す(例、悪性腫瘍や外科手術の
存在)。検査の中には除外項目に向いたものがあり、それ以外は組み入れ項目に向いたものであ
る。年齢やふくらはぎの周囲の長さの差(D-ダイマー検査も)といった、連続検査の ROC の面
積は 1 以下であった。既往や健康診断の変数の組み合わせが、個々の検査の正確性の推定値と
比較して、正確性が改善されるか否かという疑問から、D-ダイマーバイオマーカーによってさ
らに改善がみられるか否かが問題視される。
これらの患者の既往や、健康診断結果を一緒にした診断価値や、D-ダイマーバイオマーカーの
付加価値の形式的な定量のため、多変量統計解析的アプローチが必要とされる。アウトカムは 2
つにわかれている(DVT が存在する: はい/いいえ)ため、私たちは多重ロジスティック回帰
モデルを使用した。このようなモデルは、それぞれの検査結果の線形関数として(対数スケール
上で)DVT の確率を表す。表 2(モデル 1)は多変量解析(ここでは 1 と P 値<0.05 で有意差
を示す多変量オッズ比によって定義されたもの)で、有意に DVT と相関を示す既往や健康診断
からの結果を示す。D-ダイマーバイオマーカーがこれらの既往や健康診断の結果を組み合わせ
たものを越えた診断価値を加えるかどうかを定量するために、基本モデル 1 に D-ダイマーを加
えることによって単純に拡張されたモデル 2 を得た(表 2)。
表 2 DVT の有無の鑑別のための、基本または拡張した多変量診断モデル
4
D ダイマーアッセイを加えた後、モデル 2 のほとんどの履歴や体力テストの相関係数はモデル 1
のそれとは異なり、これらは特異的な D-ダイマーの結果次第で、対応する変数の寄与を反映し
ている。この変化は、既往と健康診断や D-ダイマーの結果が関連していて、DVT であるかそう
でないかの点で、同じ情報を部分的に送っている。ほとんどの結果の相関係数が低いという事実
は、以下のように説明される。すなわち、既往や身体的な情報によって提供される情報の一部は、
D-ダイマーアッセイにより現在「引き継がれる」ものである。D-ダイマーの追加のために、直
近の外科手術の変数の効果は完全に消滅したことに注目してほしい。
モデルの全体的な識別または診断精度:ROC カーブ下の領域
表 2 中のモデル 1 とモデル 2 中の異なる診断検査結果が組み合わされた多変量診断モデルは、
一つの検査として見なされ得て、個々の検査の一連の流れの複合として構成されている。このモ
デルによる患者の検査結果は、単純に患者の観察された検査結果によって得られたモデルにより、
算出された DVT に罹患している確率である(表 2 の脚注の疾患の存在の確率の計算の仕方を見
よ)。
私たちは DVT のある患者とない患者を識別するための、これらの試験結果(例、診断モデル)
の組み合わせの能力を評価するために、ROC カーブの下の領域(AUC)、いわゆる c-統計量を
用いた。これは連続的または定量的診断検査またはバイオマーカーの、このシリーズのレポート
1 の中で説明したアプローチに似ている(19,20)。ROC 領域は、DVT を持つ患者と持たない患者
の全ての可能な組み合わせでの比率を表し、DVT を持つ患者は DVT を持たない患者よりも計
算される確率は高い(6)。Figure 1 では、モデル 1 とモデル 2 の ROC 曲線と面積を示した。こ
れは 2 つの異なる定量的な診断検査のための、シリーズのレポート 1 に示されているものに似
ている。
5
図 1 D-ダイマーバイオマーカーがあるものとないものの基礎モデルにおける ROC 曲線
図 1 はモデル 1 に D-ダイマーバイオマーカーを追加することにより、ROC 領域は 0.72 から 0.87
に増加し、実質的で統計的な優位性が増加している(P 値<0.01)(20)。これは、患者の既往と
健康診断からの情報の全診断正確性が、D-ダイマー検査の追加によって実質的かつ統計的に付
加価値が増加したことを意味する。
新しい検査やバイオマーカーの付加価値を表現するための ROC 領域の違いを使用することは、
これまで評論されてきた(21-23)。まずは特異的な診断アルゴリズムは、特異的な診断カットポ
イントを使用しているため、AUC は全ての鑑別の測定であり、正しいまたは誤った診断の分類
または絶対的な患者数の観点での直接の臨床的解釈ではない。2 つ目は、研究者の経験的なアプ
リケーションに基づくと、AUC の増加はベースラインモデルの AUC が高いときには、しばし
ば絶対値としては非常に小さい(24)。一方、この意見は驚くべきことではない。すなわちすぐれ
たモデルは、さらに改良することがより難しいということである。しかしながら、この測定は興
味のある結果の新しい検査またはマーカーの効果サイズやオッズ比よりも、ベースライン c 統計
量に依存しており、AUC の改善の程度をさらに強調することに重きを置くのはあまり賢いこと
ではないかもしれない(22,23,25)。いくつかの代替的測定がこれらの制限を解決するために、新
しい検査またはバイオマーカーの付加価値を定量するために提案されている。
再分類法
ROC 領域の差の問題を織超えるために、いわゆる再分類表が提案された(26)。この再分類表は、
特定の疾患の存在閾値の確率を導入した後、何人の患者が新しい検査やバイオマーカーの追加に
よって既存の検査に再分類されることを示している(このケースでは概略化され多変量モデルに
統合される)。私たちの DVT 試験のための再分類表を、25%閾値で表 3 に示す。このことは、
診断確率の計算値が 25%以上の患者が、さらに精密検査やもしかしたら治療を始めるための参
考にされ、一方それ以外の場合は DVT の検査も治療もされない。
表 3 基礎または(D-ダイマーに)拡張したモデルからの再分類表、25%の任意のカットオフ値
6
表 3 は 25%DVT 確率閾値で、モデル 1 の代わりにモデル 2 を使ったときの患者の再分類を示す。
例えば、DVT を持つ患者において、36%(123/416+26/416)がモデル 1 と比較して、モデル 2
によって再分類された。DVT のない患者にあっては、このパーセンテージは 21%
(227/1670+116/1670)であった。
しかしながら、DVT が存在する異なる確率カテゴリーへの個人分類の変化を単に示すことは、
新しい検査やバイオマーカーによる診断正確度の改良を適正に評価するには不十分である。変化
もまた適正でなければならない。さもなければ、DVT 患者個人の高い確率カテゴリーへの「上
向き」移動は、改善された診断分類を示し、下向き移動はより悪い診断分類であることを示す。
この説明は診断なしの個人では、反対の結果となる(27)。診断再分類の全ての改善は、選ばれた
分母に依存して様々な方法で定量され、しかし一般的には 2 つの間の差として計算される。す
なわち、DVT を持つ上向き個人の比率と下向き個人の比率の間の差についての最初の計算と、
その後の DVT を持たない比率の差の計算結果、そしてこれらの 2 つの結果の差を取るわけであ
る。この方法は純再分類改善度(NRI: net reclassification improvement)として紹介された(28)。
NRI は以下の式で計算される。
NRI = [P( up |D=1) – P( down |D=1)]-[P( up |D = 0) – P (down |D = 0)]
P は患者の比率、上向き移動(up)はモデル 2 に基づく疾患保持カテゴリーで高い確率に変化
したものと定義し、下向き移動(down)は逆の方向に変化したものとした。D は疾患分類を意
味し、DVT の場合は存在する場合を(1)、しない場合を(2)とした。
表 3 に示されている番号を用い、既往や健康診断結果に加えて D-ダイマーアッセイを追加した
NRI は(0.30 − 0.06) − (0.07 − 0.14) = 0.31 (95% 信頼区間, 0.24–0.36)であった。DVT イベント
を経験した 123/416(例えば 0.30)の患者には、分類を D-ダイマーのモデルで改善し、26/416
(0.06)の人たちにでは、これは悪くなり、0.24 の再分類比率の純量増加を伴う。
病態イベントを経験していない患者 116/1670(0.07)にあっては、D-ダイマーを含むモデルに
よって個人はより悪く分類され、227/1670(0.14)はよりよく分類され、結果的には 0.07 の再
分類比率での純量増加がみられた。したがって、再分類比率の総純量増加は 0.24+0.07=0.31
である。
この予測値は 0 と有意差がみられた(P 値<0.001)。NRI 予測値の 95%信頼区間は Pencina ら
によって提案された式で計算された(28)。
NRI は(複数の)確率閾値の分類に強く依存する。ほとんどの人たちは 3-4 のカテゴリーを使
用する。異なる閾値は同じ追加検査結果によって極めて異なる NRIs という結果になるかもしれ
ない。任意のカットオフの選択の問題を乗り越えるために、いわゆる統合分別改善度(IDI)と
言われる他のオプションが計算されるべきである。そしてそれは再分類確率改善の重要性または
全ての可能性のあるカテゴリー分類、または確率閾値での新しい検査またはバイオマーカーによ
る悪化を考慮する(27-29)。
7
IDI は以下の式で計算される。
IDI = [(Pextended | D = 1) − (Pbasic | D = 1)] − [(Pextended | D = 0) − (Pbasic | D = 0)]
この式では、Pextended | D = 1 と Pextended | D = 0 は表 2 の拡張型モデル 2 による予測さ
れた DVT 確率の平均で、それぞれ DVT を持つ患者と持たない患者のものであることを表し、
Pbasic | D = 1 and Pbasic | D = 0 は表 2 のモデル 1 の予測された DVT の確率の平均でそれぞ
れ DVT を持つ患者と持たない患者のものであることを表している。NRI 予測値の 95%信頼区
間は Pencina らによって提出された数式により計算された(28)。
私たちの DVT の例の IDI では、 (0.49 − 0.13) − (0.28 − 0.18) = 0.26 (95% CI, 0.23–0.28) で
ある。
以上、既往や健康診断への D-ダイマーの付加によって、患者の DVT の有無の違いによる予測さ
れた確率の平均の差が 0.26 増加した。これもまた特異性の変化なしに、感受性の平均値の増加
と等価なものとして説明される(28)。
付加価値予測のレポート中で、非常に有名でだんだん求められているものの、NRI や IDI は罹
患と非罹患状態の分別の測定のみで、ROC 領域の場合もそうである。これらは診断モデルによ
り計算される診断確率が、観察された疾患罹患率と一致するか否かについての情報は提供されて
いない。例えば、これらは観察された DVT 有病率と比較して、モデルの DVT の確率が過大も
しくは過小評価されているか否かということや、診断バイオマーカーまたは検査が追加されたと
きに診断上の誤分配の結果を確認する任意の方法でも説明されない(30,31)。以下の方法がこれ
らの問題の解決に適している。
予測曲線
予測曲線(32,33)は、予測した疾患確率の分布を画像表示したものである。例えば、モデル 1(Dダイマーを追加していない)の予測確率は、低いものから高いものへ並べ替えられプロットされ
た(図 2)。
8
図 2 予測リスク(PR: Predictive Risk)閾値を 0.25 とした陽性および陰性患者の分布でのモ
デル 1(D-ダイマー無し)の予測曲線
X 軸には今回の研究での全ての個人の累積パーセンテージを示していて、y 軸にはモデル 1 で計
算された確率を示している。最初に単独モデル 1 に焦点を当てて、我々の症例の >25%の事後
危険を持つもの(既往や健康診断の後)は更なる精密検査をしたら(陽性とみなす)、実際のと
ころ患者の 74%は陰性であり、26%は陽性である(図 2 の垂直な分割線)ということを確認し
た。
垂直分割線によって定義される 4 つの領域は、それぞれ真の陰性(TN)(64%)、擬陽性(FP)
(16%)、偽陰性(FN)(10%)、真の陰性(TP)(10%)を表す。
ある特定の例(閾値>25%)において、感度は、TP/有病率×100=0.10/0.2×100=50%となる。
特異度は、TN/(1 – 有病率) × 100 = 0.64/0.8 × 100 = 80%
となる。
グラフは、研究対象患者が理論的にサンプリングされた集団に適応した時、予測された確率のレ
ンジと分布が既往や健康診断の最頻値と関連があったことを示している(33)。
しかし、グラフは異なる診断モデルや DVT の存在確率の正しい予測の観点で、D-ダイマーアッ
セイの付加価値の比較に用いられうる。モデル 1 の予測曲線は D-ダイマーの結果を含む更なる
広範なモデルよりも、正確性が有意に低い(図 3)。例えば、もし私たちが低リスクの閾値とし
て<0.1 を、高リスクのリスクとして>0.4(y 軸上)を選んだとすると、モデル 1 の予測値が 90-20
=70%でこれらの閾値間の疑わしいレンジに収まることが分かった。一方、モデル 2 の予測は
85-50=35%だけは、これらの閾値の間に収まる。これはモデル 2 がカテゴリー分類や低リスク
(<0.1)と高リスク(>0.4)の患者の鑑別の性能が優れていることを意味している。D-ダイマ
ーのないモデルと比較して、D-ダイマーありのモデルの予測曲線の勾配の違いから直接推察で
きる(33)。
9
図 3 表 2 の D ダイマーの有無の 2 つのモデルの予測曲線
決定曲線解析
最後に、Vickers と Elkin によって提唱された決定曲線解析(34)は、既存の方法に追加すると
きに、新しい検査またはバイオマーカーの臨床的有用性を、さらに明確に定量するための方法で
ある。NRI と比較して、その中で単一の所定の確率閾値が選択され、この解析によっておのお
のの医師や患者が更なる行動のための彼または彼女らの望ましい閾値を決定することができ、
(例えば、さらなる診断検査または治療開始を決定するための推奨されるもので、検査またはモ
デルの意図された使用に依存する)誤った分類の重要性や有用性を評価することなく、対応する
純効果を判定することもできるようになる。
図 4 に示す通り、50%の確率閾値は、誤った推奨(FP)が血栓の見逃し(FN)と、まさに同じ
く悪いことを表している。リスクを好まない医師や患者は、参照検査の実施または低い閾値を使
うことによって、更なる管理の推薦を選択するかもしれない(例えば、次の検査が比較的煩わし
くなく、選択肢の中の治療法が比較的副作用のリスクが低かったら)。例えば、DVT のリスク
が 20%で、そのような低い推奨閾値であるとことは、疾患を見逃す(FN)よりもむしろ誤った
推奨(FPs)をすることに大きな確立があることを意味している。他方で、この例でいえば、非 DVT
患者への無用な推奨または精密検査(FPs)と比べて、DVT を見逃す例にさらに比重がかかること
を暗に示している。代わりに、更なる精密検査のコストや負担について(例えば、次に続く検査
は侵襲性が高かったり、次に続く治療が高い副作用のリスクを伴ったりする場合)さらに関心の
ある医師や患者は、70%といった高い閾値を用いるかもしれない。このことは疾患を持たない患
者への誤った推奨(FPs)に高い確率を生じさせ、暗に疾患(DVT)を見逃す(FNs)殊に低い確立
が生まれる可能性を意味している。
10
図 4 決定曲線解析 参照検査をしなかった患者、参照検査を全てした患者、基礎予測モデル、
拡張型予測モデルのしめす純効果を表していて、推奨の確率閾値の選択に依存している。
グラフでは x 軸にさらに管理が必要な確率閾値の全レンジ、y 軸上には治療戦略またはモデルの
総効果を示している(35)。純効果を計算するため、FP の全患者の比率を TP の全ての患者の比
率から差し引き、FP と FN の分類の相対危険によって重みづけされる。私たちはいくつかの例
でこれを例証していく。
表 4 は経験的な研究の結果を表したもので、上記の 20%閾値を使用した時、モデル 1 の TP が
263、FP が 528 であったことを示している。総患者数(N)は 2086 人である。閾値 20%でのモデ
ル 1 の純効果は(263/2086) − (528/2086) × (0.2/0.8) = 0.06 であった。純効果比は 0.2/0.8 で、上
記で示した通り、FNs に比べて FPs はより低い比重が充てられていることが直接的に示される。
モデル 2 については、閾値 20%での純効果は(319/2086) − (301/2086) × (0.2/0.8) = 0.12 で 2 倍
高い。モデル 2 はモデル 1 に比べて明らかに優れているが、拡張型モデルにこの閾値をあては
める場合には治療は、416 例中 97 例の既知の例が治療をされたり、更なる検査を参照されなか
ったりということに気をつけなければならない。このことにより私たちの説明したモデル 2 の
診断性能が、今回理論的に選択した閾値において比較的乏しくなっている。
表 4 真の DVT 状態と予測確率 20%または 70%の閾値での、基礎または拡張型予測モデルの結
果との関係
11
閾値 70%でのモデル 1 の純効果は (3/2086) − (6/2086) × (0.7/0.3) = −0.01 で、閾値 70%でのモ
デル 2 の純効果は (123/2086) − (31/2086) × (0.7/0.3) = 0.02 である。
閾値 20%でのモデル 1 の 0.06 の純効果は次のように説明されうる。「誰も調べない場合と比べ
て、モデル 1 による推奨は不要な推奨(例えば FP)のない 100 名の疑わしい患者の DVT を持
つ 6 名の患者を正確に調べることに相当する。」
決定曲線(図 4)の重要な面は、診断戦略が医師または患者個人が選んだ確率閾値で得られた純効
果を最も高いものにするかを調べることである。図 4 中の x 軸に沿った水平黒線は、参照検査
によって調べられる患者がいないとみなす。この戦略は 0 名の患者を調べているため、この戦
略の純利益は 0 になる。すなわち、DVT の全患者は誤った管理をされるということである。図
4 中の急勾配の下がった線は、全ての個人が単純に参照検査を実施したときの純効果を示す。こ
の線と x 軸とは閾値確率 20%で交わる。すなわち、この研究の有病率である。そして、さらな
る管理の確率閾値は予測リスクと同じ
さらなる管理の確率閾値が予測されたリスクとして、有病率を評価するときに得られたものと同
じ時、調査するときの純効果と調査しないときの純効果は同じになる(すなわち、純効果=0)。
さらに、モデル 2 は全ての閾値確率で最も大きな純効果(これが最も高い線)があることが理
解されるかもしれない。それ故に、応用された確率閾値にかかわらず、私たちは D-ダイマーが
加えられた拡張モデルは、基礎モデルより優れたものである。
結語
このレポートで、私たちは単試験の正確性の研究の限界を繰り返し述べ、利用可能な既存の診断
検査結果に対する新しい検査法やバイオマーカーの付加価値の定量のための、いくつかの従来型
のまたは比較的新しい測定法について概説した。新しい検査法またはバイオマーカーの付加価値
の評価のための様々な方法を例証するため、一つの例として DVT の疑いのある患者の D-ダイマ
ー検査を用いた。興味深いことにこの特定の例で、D-ダイマーアッセイの ROC 領域は単独で
0.86 であった。一方、D-ダイマーを含むフルモードの ROC 領域(モデル 2)では 0.87 であっ
た。純粋に定量的かつ科学的観点から、D-ダイマーバイオマーカーが患者の既往や健康診断か
らの最初に要求される情報なしに、単独で使用される可能性が議論になるかもしれない。多変量
による単試験評価アプローチ、または付加価値アプローチの使用が望ましいと思われる。しかし
ながら、試験が付加価値を持つか否かを定量するために、単独と他の臨床情報の背景を使用する
検査の診断正確度の違いを比較するための、多変量診断研究の実施しなければならないことに注
目した。第 2 に、多くの例で単独の検査またはバイオマーカーの診断正確度は、私たちの例ほ
ど高くなく、多変量研究は標準的に使用している情報を越えたバイオマーカーの付加価値の定量
に求められる(6,36)。単診断検査の正確度測定は、もう十分であるとさえいう人もいる。3 つ
目として、一般的に精密検査に時間が近接している遅いステージに使用された検査結果からによ
り、検査の診断精度を知る事ができる。それ故に、多くの場合さらに苦痛があり経費のかかる検
12
査は、それぞれの疑われた患者に行われるべきであるが、臨床的にこのようなアプローチは必ず
しも必須ではない。実際、高度な検査はいつも既往や健康診断といった簡単な検査の後に実施さ
れる。従ってシンプルな検査以上に、これらの検査の正確度は定量される必要があり、逆もまた
同様である。
単独検査または単独バイオマーカーアプローチにより示された明確な証拠がある。例えば、(診
断的)決定が、実際に 1 つの検査またはバイオマーカーのもとになされる場合がある。これは
とりわけ(多分唯一)スクリーニング検査に適用される(6,36)。2 つ目に新しい検査やバイオ
マーカーの開発や、新しい状況での既存の検査やバイオマーカーの評価の初期段階では、単検査
評価は効率的な理由で推奨されている(6,37-40)。検査やバイオマーカーが検査された(極端な)
疾患と、その疾患を持たない患者との間を識別できない場合(例えばケースコントロールデザイ
ンの一つ(このシリーズのレポート 1 をみよ))、示された母集団内の検査、またはバイオマ
ーカーの付加価値の定量をすることは適当ではない。このような状況で検査が十分な診断正確度
を得た場合、示された背景で今ある診断情報への寄与はさらに評価されるべきである。3 つ目に、
特異的な状況に置いて(例えば診断精密検査の終わりに)、問題のある検査またはバイオマーカ
ーは、これに置き換わる他の検査より良い、もしくは同等に良いかどうかということかもしれな
い(例えば、肺がんが疑われる患者のコンピューター断層撮影法(CT)と MRI スキャン法)(5,
39)。付加価値が異なるかもしれないという議論があったものの、CT と MRI の正確な測定が比
較されたという研究は、十分であったかもしれない(例えば、CT スキャンの結果より、MRI
スキャンの結果は先行している検査結果に対して、前者の方が後者より付加価値が多いという点
でより類似しているかもしれない)。ほとんどの他の例のバイオマーカーまたは検査は、一般に
以前の検査結果が得られた後に実施される診断的精密検査の一部であり、医師は次の検査または
バイオマーカーの結果が、実質的に標的疾患の診断に付加されるかどうかを判断することが求め
られる。
臨床業務にあっては、ROC 領域に関する知識の提供は、他の最近の診断のための動機となり、
特に新しいバイオマーカーからの付加情報による拡張型診断モデルにおいては意味がある
(8,21,28,33,41)。しかしながら研究者や内科医は、単独の手短な測定法の概説では、新しい検査
またはバイオマーカーにより付加されたものや臨床的価値の全ての側面を、完全には理解するこ
とができない事を知るべきである。鑑別や分類の増加についてのレポートは、バイオマーカーの
増加する価値の知見を得ることに意味がある。それ故にこれらの測定は、新しい検査やバイオマ
ーカーの増加する価値を評価する研究の中で報告されるべきである。しかしながら、私たちは決
定曲線解析の使用も推奨する。なぜなら、この方法により他の方法とは対照的に、FP や負の分
類の結果が暗に説明できるためである。
(訳者:時田 佳冶)
Footnotes
† Karel Moons and Joris de Groot contributed equally to the work, and both should be considered as first
authors.
13
4
Nonstandard abbreviations:
DVT, deep venous thrombosis; AUC, area under the ROC curve; NRI, net reclassification improvement;
IDI, integrated discrimination improvement; TN, true negative; FP, false positive; FN, false negative; TP,
true positive; CT, computed tomography.
Author Contributions: All authors confirmed they have contributed to the intellectual content of this
paper and have met the following 3 requirements: (a) significant contributions to the conception and
design, acquisition of data, or analysis and interpretation of data; (b) drafting or revising the article for
intellectual content; and (c) final approval of the published article.
Authors' Disclosures or Potential Conflicts of Interest: Upon manuscript submission, all authors
completed the author disclosure form. Disclosures and/or potential conflicts of interest:
Employment or Leadership: None declared.
Consultant or Advisory Role: None declared.
Stock Ownership: None declared.
Honoraria: None declared.
Research Funding: K.G.M. Moons, the Netherlands Organization for Scientific Research (project
9120.8004 and 918.10.615).
Expert Testimony: None declared.
Role of Sponsor: The funding organizations played no role in the design of study, choice of enrolled
patients, review and interpretation of data, or preparation or approval of manuscript.
Received for publication January 17, 2012.
Accepted for publication July 11, 2012.
© 2012 The American Association for Clinical Chemistry
References
1. Pepe MS. The statistical evaluation of medical tests for classification and prediction. Oxford: Oxford
University Press, 2003.
2. Sackett DL, Haynes RB, Guyatt GH, Tugwell P. Clinical epidemiology. 2nd ed. Boston (MA): Little,
Brown and Company; 1991.
3. Hoes AW, Grobbee DE. Chapter 3 Diagnostic Research. Clinical epidemiology. Sudbury (MA): Jones
& Bartlett Publishers; 2008.
14
4. Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, et al. The STARD
statement for reporting studies of diagnostic accuracy: explanation and elaboration. Ann Intern Med
2003;138:W1–12.
5. Lord SJ, Staub LP, Bossuyt PM, Irwig LM. Target practice: choosing target conditions for test
accuracy studies that are relevant to clinical practice. BMJ 2011;343:d4684.
6. Moons KG, van Es GA, Michel BC, Buller HR, Habbema JD, Grobbee DE. Redundancy of single
diagnostic test evaluation. Epidemiology 1999;10:276–81.
7. Moons KG, Grobbee DE. Diagnostic studies as multivariable, prediction research. J Epidemiol
Community Health 2002;56:337–8.
8. Moons KG. Criteria for scientific evaluation of novel markers: a perspective. Clin Chem
2010;56:537–41.
9. Moons KG, van Es GA, Deckers JW, Habbema JD, Grobbee DE. Limitations of sensitivity, specificity,
likelihood ratio, and Bayes' theorem in assessing diagnostic probabilities: a clinical example.
Epidemiology 1997;8:12–7.
10. Leeflang MM, Bossuyt PM, Irwig L. Diagnostic test accuracy may vary with prevalence: implications
for evidence-based diagnosis. J Clin Epidemiol 2009;62:5–12.
11. Hlatky MA, Pryor DB, Harrell FE Jr., Califf RM, Mark DB, Rosati RA. Factors affecting sensitivity
and specificity of exercise electrocardiography. Multivariable analysis. Am J Med 1984;77:64–71.
12. Oudega R, Moons KG, Hoes AW. Ruling out deep venous thrombosis in primary care. A simple
diagnostic algorithm including D-dimer testing. Thromb Haemost 2005;94:200–5.
13. Toll DB, Oudega R, Bulten RJ, Hoes AW, Moons KG. Excluding deep vein thrombosis safely in
primary care. J Fam Pract 2006;55:613–8.
14. Rutjes AW, Reitsma JB, Di NM, Smidt N, van Rijn JC, Bossuyt PM. Evidence of bias and variation
in diagnostic accuracy studies. CMAJ 2006;174:469–76.
15. Rutjes AW, Reitsma JB, Coomarasamy A, Khan KS, Bossuyt PM. Evaluation of diagnostic tests
when there is no gold standard. A review of methods. Health Technol Assess 2007;11:iii, ix–51.
16. de Groot JA, Bossuyt PM, Reitsma JB, Rutjes AW, Dendukuri N, Janssen KJ, Moons KG.
Verification problems in diagnostic accuracy studies: consequences and solutions. BMJ 2011;343:d4770.
17. de Groot JA, Janssen KJ, Zwinderman AH, Bossuyt PM, Reitsma JB, Moons KG. Correcting for
partial verification bias: a comparison of methods. Ann Epidemiol 2011;21:139–48.
18. de Groot JA, Dendukuri N, Janssen KJ, Reitsma JB, Bossuyt PM, Moons KG. Adjusting for
differential-verification bias in diagnostic-accuracy studies: a Bayesian approach. Epidemiology
2011;22:234–41.
15
19. Harrell FE Jr., Lee KL, Mark DB. Multivariable prognostic models: issues in developing models,
evaluating assumptions and adequacy, and measuring and reducing errors. Stat Med 1996;15:361–87.
20. Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic
(ROC) curve. Radiology 1982;143:29–36.
21. Cook NR. Use and misuse of the receiver operating characteristic curve in risk prediction. Circulation
2007;115:928–35.
22. Pepe MS, Janes H, Longton G, Leisenring W, Newcomb P. Limitations of the odds ratio in gauging
the performance of a diagnostic, prognostic, or screening marker. Am J Epidemiol 2004;159:882–90.
23. Ware JH. The limitations of risk factors as prognostic tools. N Engl J Med 2006;355:2615–7.
24. Tzoulaki I, Liberopoulos G, Ioannidis JP. Assessment of claims of improved prediction beyond the
Framingham risk score. JAMA 2009;302:2345–52.
25. Pencina MJ, D'Agostino RB, Vasan RS. Statistical methods for assessment of added usefulness of
new biomarkers. Clin Chem Lab Med 2010;48:1703–11.
26. Cook NR, Ridker PM. Advances in measuring the effect of individual predictors of cardiovascular
risk: the role of reclassification measures. Ann Intern Med 2009;150:795–802.
27. Steyerberg EW, Pencina MJ, Lingsma HF, Kattan MW, Vickers AJ, Van CB. Assessing the
incremental value of diagnostic and prognostic markers: a review and illustration. Eur J Clin Invest
2011;42:216–28.
28. Pencina MJ, D'Agostino RB Sr., D'Agostino RB Jr., Vasan RS. Evaluating the added predictive
ability of a new marker: from area under the ROC curve to reclassification and beyond. Stat Med
2008;27:157–72.
29. Pepe MS, Feng Z, Gu JW. Comments on ‘Evaluating the added predictive ability of a new marker:
from area under the ROC curve to reclassification and beyond’ by M. J. Pencina et al., Statistics in
medicine (DOI: 10.1002/sim. 2929). Stat Med 2008;27:173–81.
30. Greenland S. The need for reorientation toward cost-effective prediction: comments on ‘Evaluating
the added predictive ability of a new marker: from area under the ROC curve to reclassification and
beyond’ by M. J. Pencina et al. Statistics in Medicine (DOI: 10.1002/sim. 2929). Stat Med
2008;27:199–206.
31. Steyerberg EW, Vickers AJ, Cook NR, Gerds T, Gonen M, Obuchowski N, et al. Assessing the
performance of prediction models: a framework for traditional and novel measures. Epidemiology
2010;21:128–38.
32. Huang Y, Sullivan PM, Feng Z. Evaluating the predictiveness of a continuous marker. Biometrics
2007;63:1181–8.
16
33. Pepe MS, Feng Z, Huang Y, Longton G, Prentice R, Thompson IM, Zheng Y. Integrating the
predictiveness of a marker with its performance as a classifier. Am J Epidemiol 2008;167:362–8.
34. Vickers AJ, Elkin EB. Decision curve analysis: a novel method for evaluating prediction models. Med
Decis Making 2006;26:565–74.
35. Steyerberg EW, Vickers AJ. Decision curve analysis: a discussion. Med Decis Making
2008;28:146–9.
36. Moons KG, Biesheuvel CJ, Grobbee DE. Test research versus diagnostic research. Clin Chem
2004;50:473–6.
37. van der Schouw YT, Verbeek AL, Ruijs JH. ROC curves for the initial assessment of new diagnostic
tests. Fam Pract 1992;9:506–11.
38. Rutjes AW, Reitsma JB, Vandenbroucke JP, Glas AS, Bossuyt PM. Case-control and two-gate
designs in diagnostic accuracy studies. Clin Chem 2005;51:1335–41.
39. Lijmer JG, Bossuyt PM. Various randomized designs can be used to evaluate medical tests. J Clin
Epidemiol 2009;62:364–73.
40. Biesheuvel CJ, Vergouwe Y, Oudega R, Hoes AW, Grobbee DE, Moons KG. Advantages of the
nested case-control design in diagnostic research. BMC Med Res Methodol 2008;8:48.
41. Hlatky MA, Greenland P, Arnett DK, Ballantyne CM, Criqui MH, Elkind MS, et al. Criteria for
evaluation of novel markers of cardiovascular risk: a scientific statement from the American Heart
Association. Circulation 2009;119:2408–16.
17