【統計的因果推論】回帰分断デザイン(Regression Discontinuity Design:RDD)を解説する

1. はじめに

因果関係の分析を行うとき、理想的には無作為化比較実験（RCT）を行うのが理想的です。
syleir.hatenablog.com

しかし、実際には適用が難しいケースが多々あります。RCTができない環境で、観察データからなんとか因果関係を見出そうとします。
そのような研究の中で、比較的因果関係を示しやすい、そんな手法が回帰分断デザイン（Regression Discontinuity Design: RDD）です。

この記事では、RDDの基本概念から具体的な分析方法、注意点までを解説します。

1. はじめに
2. 回帰分断デザイン（RDD）とは？
- 2.1 基本的な概念
- 2.2 具体例
3. RDDの仮定
4 RDDの分析
5.参考:曖昧なRDD
6. RDDの利点
7. RDDのlimitation
8. まとめ
10.関連書籍

2. 回帰分断デザイン（RDD）とは？

因果関係を示すには、RCTを行うのが理想です。上の図のように、母集団をランダムに2群に分け、処置群と非処置群（対照群）に分け、介入を行って因果関係を推定します。

RDDは、一言で言えば、閾値の前後で処置群と非処置群が分けられる状況で、因果関係を分析する手法、と言えます。

皆様、中高大とテスト漬けだったあの日々を思い出してみましょう。
あるいは、資格試験を思い出してみましょう。

合格点が60点だったとして、59点の人と、60点の人、知識量にあまり差はないと思いませんか？時の運、問題セットで覆る些細な差です。
なのに59点の人だけ再試・補習・浪人をさせられ、60点の人には何もありません。
不公平ですよね？59点だった時にこの再試は意味があるのか？と考えることもあるでしょう。そういう時に考えるのが回帰分断デザイン(RDD)です。

2.1 基本的な概念

回帰分断デザイン（RDD)は、特定の閾値を境に処置群と非処置群が分けられる状況で、因果効果を推定する手法です。

2.2 具体例

試験で合格点が60点と設定されている場合、59点と60点の受験者間に知識量の大きな差は存在しない可能性があります。しかし、59点の学生には補習が課され、60点の学生には何も行われません。この「閾値付近のランダム性」を利用して、補習の効果を推定するのがRDDです。

介入群（Treatment Group）：60点以下の得点の学生
対照群（Control Group）：60点以上の得点の学生

上の例では、
介入群：不合格者
対照群：合格者です。

また、
介入：補習
因果効果：次回の得点上昇率
としています。

3. RDDの仮定

カットオフ周辺では、ランダムに介入が発生している

この例では、60点付近の実力を持つ受験者はランダムに61点、あるいは59点を取り、介入が起きていると考えています。
つまり、閾値付近の個体では、背景要因がほぼ同じであると考えることができます。

ここで、これらのカットオフ前後の試験者を抽出し、介入による点数差が生まれれば介入による効果があると考えることができます。

介入の割り付けのルール、およびカットオフ値が明確

RDDは閾値を超える(または下回る)場合に、そしてその場合に限って介入が導入されることを前提にしています。
介入の基準、それに対応する閾値はRDDを行う前に特定していなければいけません。

介入前の変数の操作ができない

割り当てするかどうかを操作できるような環境があってはいけません。
例えば、60点以下の人が増えそうだから、配点を変更するなどの操作があってはいけません。

カットオフ値の前後で潜在的な介入がない

例えば、60点以下の人に補習に加えて、塾・予備校に通うことを義務付けたりした場合、補習の効果のみを判定することはできません。
背景要因に不連続性がないようにデザインすることが好ましいです。

カットオフ値の前後において、アウトカムに影響を与えるそのほかの因子が大きく変わらない

同様に、介入以外の被験者の要因もカットオフ前後で変わりがないことが重要です。

4 RDDの分析

通常、ITSと同様に、折れ線回帰で分析を行います。

通常、結果はこのように表示します。
折れ線に有意なずれがある場合、介入効果ありと判断します。

ITSはRDDのより特殊な例と考えることができ、カットオフ前後を時系列で横軸を取っているのにすぎません。

いつかpythonでの実装を行います。

5.参考:曖昧なRDD

この例は60点以下の群に補習という介入を行っていますが、例によっては介入群に割り当てられても全例が介入を受けない場合もあります。
例としては、大学受験合格後の辞退、留学可能かをGPAで足切りした後の辞退などです。
このような例では曖昧なRDD(fuzzy RDD)ということを行います。

6. RDDの利点

因果関係の推定が可能

すでに書きましたが、RDDは観察研究ですが、ランダム化比較試験（RCT）が不可能または非倫理的な状況でも、準実験デザインとして因果関係の推定ができます。

ロバストな実験が可能

閾値付近では交絡因子がほぼ均等に分布していると仮定されます。
これにより、未測定の交絡因子の影響のバランスをとることができます。未測定の交絡因子のバランスをとることができることについては、RCTの強いメリットであり、それが活かせるのはこの研究デザインの大きなメリットです。例えば、傾向スコアマッチングなどではこれができません。