【第5回】
エビデンスの質を評価する
公開日: 2016年11月14日月曜日
「この馬が1着になる可能性は99.9%」という予想の信頼性は10%
本日は休診日。なのであなたは競馬場にいます。
そして、なけなしのお金をはたいて馬券を買うこととします。
競馬場に来てみると、予想屋の周りに人集りができていました。競馬ビギナーのあなたは予想屋の話を聞いてみることとします。
ひときわ多くの人を引き付けていた予想屋が2つあり、あなたはその両方から予想を聞いてみようと思いました。
左側の予想屋にまず聞いてみました。すると自信満々な口調でこう言いました。
予想屋A 今日の第5レースはインタクキャップが来るよ。
あ な た どれくらいの確率でインタクキャップ来る?
予想屋A 99.9%だよ!
あ な た えっ?そんなに?根拠は?
予想屋A 長年のカンだよ!信じな。
彼は笑みを浮かべながら言いました。
次に右側の予想屋にも予想を聞いてみました。
あ な た 第5レースどの馬が来る?
予想屋B ディープインタクが来るよ!60%くらいの確率だな。
あ な た えっ、随分自信ないねー
予想屋B 自信ないわけじゃないよ、ディープインタクとインタクキャップの実力が拮抗しているのさ。
あ な た 根拠は?
予想屋B 両方とも今年の成績はほぼ同等。今日の騎手との相性はディープの方が良いよ!コンディションもディープのほうが良い。でもインタクはこの競馬場が得意なんだよ。あとディープは雨が苦手なんだよ。第5レースのころには小雨が降る予報だから……、まぁ総じて少しディープの方が有利かなぁ。
あ な た なるほど〜
予想屋Aの“99.9%の確率でインタクキャップ”という予想と、予想屋Bの“60%でディープインタク”という予想。あなたはどちらが信頼性が高いと考えますか?
判断基準はひとそれぞれ違いますから一概に答えは出せませんが、私なら予想屋Aの信頼度は10%、予想屋Bの信頼度は70%と判断するでしょうか。
この場合「“インタクキャップは99.9%の確率で1位になる”という予想屋Aの予想の信頼性は低い」、「“ディープインタクは60%の確率で1位になる”という予想屋Bの予想の信頼性は高い」と判断し、この結果を踏まえてどちらかの馬券を買う選択するわけです。
エビデンスの確信性・質を把握する
この考え方はイマドキEBM3つ目の原則に繋がります。3つ目の原則は「エビデンスの質(確信性・確実性という言い方をします)を把握しましょう!」というものです。
競馬の例で言いますと、“インタクキャップは99.9%の確率で1位になる”というのがエビデンスにおける効果推定値です。
効果推定値を把握するのと同時に、“予想屋Aの予想の信頼性は低い”というエビデンスの質も同時に把握する必要があります。
患者さんにより良い医療を提供するためにエビデンスを利用するわけですから、そのエビデンスの質の評価が必要な事は当然なことです。
効果推定値と質の両方を併せて決断に用いるのです。
効果推定値+質
イマドキEBMの2つ目の原則は“ベストエビデンスサマリー”でした。ベストエビデンスサマリーは、システマティック・レビュー(SR)によって得られます。
そして得られた効果推定値の質を評価する必要があります。
イマドキEBMでは、質の評価を行う際のチェックリストが決まっていて、RCTなどの介入研究のSRであれば、5つのチェック項目を見ていきます。
その結果、エビデンスの質を「高・中・低・すごく低」の4段階で提示し、効果推定値とともにペアで臨床決断に用います。
たとえば「垂直性骨欠損における歯周外科治療では、歯周組織再生療法を用いるとアクセスフラップ手術に比べて1.5mm大きなアタッチメントゲインが得られる。このエビデンスの確信性は低。」といったようなものです。
質の評価の5項目
それでは介入研究から得られるベストエビデンスサマリーの質評価に用いられる5項目を見ていきましょう。少々難解ですが、お付き合いください。質の評価においては、まずSRに含めてそれぞれの研究の質を評価します。
それぞれの研究の質が低ければ、それから得られたSRの結果も質が低くなるのは当然です。
この項目を“研究の限界”の検証と呼びます。
具体的には「ランダム化されている?」「ブラインドは?」などの項目を見ていきます。
残りの4項目は、SR全体に関する評価項目です。
SRに採用した論文すべてが同じような結果を示すことはほとんどありませんが、論文毎のデータのバラツキがあまりにも大きければ、得られた効果推定値の質は低いと判断します。
この項目を“非一貫性”の検証と呼びます。
臨床研究においてサンプル数(患者数)は極めて重要です。群間に小さいけれども差が見られる場合、必要数以上のサンプル数にて検証を行わないと差は見えてきません(統計学の話ですので、読みとばして構いません……)。ゆえにSRに採用したそれぞれの臨床研究およびSR全体のサンプル数は、必要数より少なければ質は低いと判断します。
この項目を“不精確さ”の検証と呼びます。
4項目目は“非直接性”の検証です。
「アジアの若年女性に対するA薬の効果」を調べたいのですが、それに対してSRを行うと「欧米の高齢男性」の研究しか見つからなかったとします。このような場合、得られた研究はSRに不適合と判断することもありますし、現時点で存在するエビデンスから結論を出すことを優先するのであれば組入れることもあります。
ただし、もし組み入れたならば、そこから得られたエビデンスは想定した臨床の疑問とはズレたものになります。
このような場合、エビデンスの質は低いと判断するのです。
最後の項目は“出版バイアス”の検証です。
SRでは想定した疑問に関するすべての論文を拾い集めようと検索を行います。
しかしながら、結果として検索がうまくいかず、論文を見落としてしまうことがあります。
また、そもそも治療法に対してネガティブなデータは発表されていない可能性があります。世の中はポジティブなデータを発表すると評価されやすい傾向があります。臨床研究を行ったにも関わらず、得られたデータが新規治療法・治療薬の利用に否定的な結果であったら、その研究は「お蔵入り」になってしまう可能性があります。しかしながら、SRではこのようなデータも本来は含まれるべきです。
このように本来含まれるべき研究が含まれていない可能性が示唆された場合、エビデンスの質は低いと考えます。これは、統計学的手法(ファンネルプロットの作成)を用いると検証することが可能です。
ファンネルプロットの例。点それぞれが研究の存在を意味する。左右対称(ポジティブ・ネガティブともに存在していることを示す)に広がっているので、出版バイアスはないと思われる。(画像はwikipediaより引用) |
偏りのあるファンネルプロットの例。出版バイアスがある可能性がある。(画像はwikipediaより引用) |
これらの項目をトータルして、最終的にエビデンスの質を判定します。そして、効果推定値とともに臨床判断の材料とするのです。
0 件のコメント :
コメントを投稿