Syleir’s note

2020.4.1より統計検定やE資格の勉強の進捗を報告しています。統計検定準1級、E資格、G検定取得しました!当ブログへのリンクはご自由にどうぞ。

MENU

【統計的因果推論】回帰分断デザイン(Regression Discontinuity Design:RDD)を解説する

1. はじめに

因果関係の分析を行うとき、理想的には無作為化比較実験(RCT)を行うのが理想的です。
syleir.hatenablog.com

しかし、実際には適用が難しいケースが多々あります。RCTができない環境で、観察データからなんとか因果関係を見出そうとします。
そのような研究の中で、比較的因果関係を示しやすい、そんな手法が回帰分断デザイン(Regression Discontinuity Design: RDDです。

この記事では、RDDの基本概念から具体的な分析方法、注意点までを解説します。

2. 回帰分断デザイン(RDD)とは?

因果関係を示すには、RCTを行うのが理想です。上の図のように、母集団をランダムに2群に分け、処置群と非処置群(対照群)に分け、介入を行って因果関係を推定します。

RDDは、一言で言えば、閾値の前後で処置群と非処置群が分けられる状況で、因果関係を分析する手法、と言えます。

皆様、中高大とテスト漬けだったあの日々を思い出してみましょう。
あるいは、資格試験を思い出してみましょう。

合格点が60点だったとして、59点の人と、60点の人、知識量にあまり差はないと思いませんか?時の運、問題セットで覆る些細な差です。
なのに59点の人だけ再試・補習・浪人をさせられ、60点の人には何もありません。
不公平ですよね?59点だった時にこの再試は意味があるのか?と考えることもあるでしょう。そういう時に考えるのが回帰分断デザイン(RDD)です。

2.1 基本的な概念

回帰分断デザイン(RDD)は、特定の閾値を境に処置群と非処置群が分けられる状況で、因果効果を推定する手法です。

2.2 具体例

試験で合格点が60点と設定されている場合、59点と60点の受験者間に知識量の大きな差は存在しない可能性があります。しかし、59点の学生には補習が課され、60点の学生には何も行われません。この「閾値付近のランダム性」を利用して、補習の効果を推定するのがRDDです。

介入群(Treatment Group):60点以下の得点の学生
対照群(Control Group):60点以上の得点の学生

上の例では、
介入群:不合格者
対照群:合格者
です。

また、
介入:補習
因果効果:次回の得点上昇率

としています。

3. RDDの仮定

  • カットオフ周辺では、ランダムに介入が発生している

この例では、60点付近の実力を持つ受験者はランダムに61点、あるいは59点を取り、介入が起きていると考えています。
つまり、閾値付近の個体では、背景要因がほぼ同じであると考えることができます。

ここで、これらのカットオフ前後の試験者を抽出し、介入による点数差が生まれれば介入による効果があると考えることができます。

  • 介入の割り付けのルール、およびカットオフ値が明確

RDD閾値を超える(または下回る)場合に、そしてその場合に限って介入が導入されることを前提にしています。
介入の基準、それに対応する閾値RDDを行う前に特定していなければいけません。

  • 介入前の変数の操作ができない

割り当てするかどうかを操作できるような環境があってはいけません。
例えば、60点以下の人が増えそうだから、配点を変更するなどの操作があってはいけません。

  • カットオフ値の前後で潜在的な介入がない

例えば、60点以下の人に補習に加えて、塾・予備校に通うことを義務付けたりした場合、補習の効果のみを判定することはできません。
背景要因に不連続性がないようにデザインすることが好ましいです。

  • カットオフ値の前後において、アウトカムに影響を与えるそのほかの因子が大きく変わらない

同様に、介入以外の被験者の要因もカットオフ前後で変わりがないことが重要です。

4 RDDの分析

通常、ITSと同様に、折れ線回帰で分析を行います。

通常、結果はこのように表示します。
折れ線に有意なずれがある場合、介入効果ありと判断します。


ITSはRDDのより特殊な例と考えることができ、カットオフ前後を時系列で横軸を取っているのにすぎません。

いつかpythonでの実装を行います。

5.参考:曖昧なRDD

この例は60点以下の群に補習という介入を行っていますが、例によっては介入群に割り当てられても全例が介入を受けない場合もあります。
例としては、大学受験合格後の辞退、留学可能かをGPAで足切りした後の辞退などです。
このような例では曖昧なRDD(fuzzy RDD)ということを行います。

6. RDDの利点

  • 因果関係の推定が可能

すでに書きましたが、RDDは観察研究ですが、ランダム化比較試験(RCT)が不可能または非倫理的な状況でも、準実験デザインとして因果関係の推定ができます。

閾値付近では交絡因子がほぼ均等に分布していると仮定されます。
これにより、未測定の交絡因子の影響のバランスをとることができます。未測定の交絡因子のバランスをとることができることについては、RCTの強いメリットであり、それが活かせるのはこの研究デザインの大きなメリットです。例えば、傾向スコアマッチングなどではこれができません。

  • 仮定を満たしているかの確認が比較的容易

RDDの仮定がいくつか必要ですが、これらは、データから直接検証できます。
例えば、ヒストグラムを用いて割り当て変数が閾値付近で不連続性を示していないか確認できます。

Yusuke Sasabuchi, Introduction to Regression Discontinuity Design, Annals of Clinical Epidemiology, 2022, 4 -1, p. 1-5,

7. RDDのlimitation

  • 閾値以外に介入を行ったときの一般化ができない

例えば、70点の群に補習を行ったらどうかはわかりません。

  • どの範囲を取るかの選択が難しい

前後5点を取るか、10点を取るか、この辺にはドメイン知識が必要です。
体感的には55点と65点は差がないと言っても良いかもしれませんが、50点と70点は同じ背景と言ってはいけないような気がします。

  • 必要なデータ数が多い

カットオフ前後の値だけを取るので、必要なデータサンプルが増えます。精度の高い結果を得るには、十分なサンプルサイズが増えます。

8. まとめ

本記事では、回帰分断デザイン(Regression Discontinuity Design: RDD) について解説しました。RDDは、無作為化比較実験(RCT)が実施できない状況でも、比較的信頼性の高い因果効果の推定を可能にする強力な手法です。

10.関連書籍

因果推論の導入におすすめです。

最近出た本ですが、因果推論関連書籍の中でもかなり出来が良く、面白いです。
ぜひ。

ちょっとだけですが、RDDの記載もあります。

modern epidemiologyの和訳です。3ページほど記載がありますがちょっと読みにくいです。


関連記事です。
普段はこんなことを書いています。

syleir.hatenablog.com
syleir.hatenablog.com
syleir.hatenablog.com
syleir.hatenablog.com