ランダム化比較試験(RCT)はなぜエビデンスレベルが高いのか？

はじめに

投稿が滞っていてすみません。今日はタイトルの通りで、
「ランダム化比較試験（以下RCT）はなぜエビデンスレベルが高いのか？」
について話していきたいと思います。

この質問、意外と難しくないですか？

医学研究、疫学研究のみならず、近年では社会科学などでもRCTが取り入れられるようになってきました。

因果推論の文脈においてもRCTはよく使われます。

病気の治療法や診断というのは、1990年くらいまでは経験的に行われることが多かったです。この病気にはこれを使うと効くことが多い、この病気にはこのような症状が出ることが多い、などから診断。治療が行われてきました。

しかし、医学、保健学分野ではここ2−30年程度でEBM（Evidence based medicine）という言葉が人口に膾炙するようになりました。

「エビデンス」というものを用いて、確度の高く、均一な治療を行いたいという動機のもとにEBMが流行るようになりました。

この文脈で、皆さんも過去に一度は以下のような古典的なピラミッドを見たことがあるでしょう。（厚生労働省より引用）

システマティックレビュー、メタアナリシスを筆頭として、ランダム化比較試験、コホート研究、症例対照研究、症例報告と続くピラミッドです。

システマティックレビューやメタアナリシスは複数の研究成果をまとめたものなので、このピラミッドの頂点に立つのはなんだかずるい気がしますが、これらも研究デザインの一つではあるので仕方ないですね。

今日はこのピラミッドのうち、システマティックレビューとメタアナリシスを除いた、つまり単独の研究デザインにおいて、なぜRCTがその頂点に立っているのかについて話したいと思います。

学生教育においても、順番を覚えさせるだけでこの分野の学習は終わってしまいます。この個々の順番に関してはなんの意味もありません。

質の良い症例対照研究が質の悪いコホート研究より良いエビデンスを残すことだってザラにあります。また上に挙げたような研究デザインに当てはまらない研究デザインのものもたくさん出てきています。

そんな時に順番だけ覚えていてもなんの役にも立ちません。エビデンスが強くなるためには何をしたら良いか、そのデザインのどこがエビデンスレベルを押し上げているのかを理解していれば、今読んでいる研究はエビデンス足りうるかの判断に使えるようになるでしょう。

ということで、今回RCTはなぜエビデンスレベルが高いのかという文章を書いていきたいと思います。

はじめに
目次
RCTの概要
前向きコホートとの比較
統計的因果推論のモチベーションを振り返る
選択バイアス（selection bias）とは？
ランダム化とは？
ランダム化は観測された共変量のバランスをとる
ランダム化は観測されない共変量のバランスもとる
RCTの限界
全てのRCTが良い研究ではない
結論
参考文献

RCTの概要

ランダム化比較試験は、因果推論における重要なツールです。

医学や臨床研究などの分野で使用される実験デザインの一つで、治療効果や介入の効果を評価し、異なる治療グループ間で結果を比較するための方法になります。

研究の対象者をランダムに2群（デザインによっては2群以上）に分ける
片方を介入群、もう片方を対照群とする
介入群にのみ治療（介入）を行う
アウトカム（生存率など介入の指標）の比較を行う

といった手順により治療の効果があるかを検討します。

前向きコホートとの比較

RCTと同じような研究デザインとして、前向きコホート研究があります。概要を下に図示します。

RCTと前向きコホート研究の大きく違うところは患者の割り当てです。
RCTが完全にランダムに治療群と対照群を割り当てるのに対し、前向きコホート研究では医師が治療適応を考えて治療群として割り付けます。

統計的因果推論のモチベーションを振り返る

かつて書いた記事で、統計的因果推論の目標は、知りたい因果関係以外の関連をすべて無くして、知りたい因果関係があるかを調べることと書きました。

因果推論が難しい理由は、知りたい因果関係以外の関連をなくすことが難しいからです。

詳しいことはこの記事を参考にしてください。

syleir.hatenablog.com

コホート研究では選択バイアスを対処するのが難しく、知りたい因果関係を知るのに支障があります。

選択バイアス（selection bias）とは？

選択バイアスとは、分析の仮定でサンプリングやデータの選択が生じる際に、その仮定で生じる結果の偏りのことです。この選択バイアスは、データを選ぶ時に、全体の人口を代表する集団を取って来れないことにより生じます。

具体例で考えましょう。

1.年齢による選択バイアス

ある疾患を持つ患者群に対して治療Aをやるか、治療Aをやらないかで前向きコホート研究をしたいです。ただし治療Aは適応が75歳以上に適応されています。この時、治療群は75歳以上しかいないのに対し、対照群は全人口から選択されているため、治療群の方が成績が悪くなってしまいます。つまり治療成績が過小評価されます。

2.自己選択による選択バイアス

ある疾患を持つ患者群に対して治療Aをやるか、治療Aをやらないかで前向きコホート研究をしたいです。ただし治療Aをやるかどうかは患者の意思により決定されます。この時、治療群は治療意欲が高い患者ばかりが集められるので、裏で健康に良い運動や食事などを取っている可能性があります。これにより治療成績が過大評価されます。

3.適応による選択バイアス

ある疾患を持つ患者群に対して治療Aをやるか、治療Aをやらないかで前向きコホート研究をしたいです。ただし、この疾患には標準治療が確立されており、かなりの奏功率で症状が改善してしまうことが知られています。医師は症状が治らない患者に対して治療Aでの治療を試みています。この時、治療Aをされる患者は原病のコントロールが悪く、対照群より状態が悪い可能性があります。これにより治療成績が過小評価されます。

具体例を出そうと思えば他にもたくさんありますが、このように、選択に意思が介在すると結果が歪んでいることがわかります。これを解決するのがランダム化になります。

ランダム化がなければ結果の解釈が困難となります。

ランダム化とは？

ランダム化とは、治療を受けるか受けないか（あるいは他の治療を受けるか）を等しい確率で割り当てることです。実運用では臨床研究に参加する際に擬似乱数を使用し割り当てられます。

ランダム化は観測された共変量のバランスをとる

確率1/2のコイントスをやる時、偶然結果が偏ることはありますが、何回も試行を重ねれば、均等な分布になっていくことは経験の通りです。結果に影響を与える共変量はたくさんありますが、（上の例では年齢、治療意欲、原病のコントロール度合い）それぞれも母集団を集めて割り振れば均一に調整されることがわかります。上の選択バイアスが生じる際には、なんらかの意思が介在していますが、コイントスは意思が介在しない（選択をしていない）ため、選択バイアスは生じません。治療法の選択において、患者属性を考慮しないが故に同じような背景の患者を割り当てることができます。　　　　　　　　　　　　　　　　　　　　　　

ランダム化は観測されない共変量のバランスもとる

ランダム化は共変量を調整しますが、観測された共変量の調整は傾向スコア（propensity score）の導入などでコホート研究においても実は可能です。しかし、傾向スコアにも限界があり、それはいつか記事にしたいと思います。

もっとも大きい限界としては、傾向スコアによる選択バイアスの調整は、観測されている共変量の調整しかできないことです。傾向スコアは取れているデータを用いて共変量の調整を行うため、取れていないデータが結果に影響を与えている場合は選択バイアスが残存します。

しかし、ランダム化においては、原理的に観測されている、されていないに関わらず、同じように分布を均一化するため、観測されていない共変量に関しても選択バイアスの影響をなくすことができます。コホート研究においては共変量による選択バイアスの影響が避けられないのに対し、RCTでは選択バイアスの影響を最小限にできるのが圧倒的に有利です。

RCTの限界

こう見ると、RCTはいいことばかりのようにも見えますが、限界はあります。

倫理的限界

たとえば、末期がん患者に関する疼痛コントロールの影響を知りたい研究デザインの時、対照群は末期がん患者に疼痛コントロールを行わないことになりますが、これは倫理的に許されません。RCTは、明らかに研究患者に害をなさない研究デザインとして組み立てる必要があります。知りたいクリニカルクエスチョンが全てRCTできるとは限りません。