Syleir’s note

2020.4.1より統計検定やE資格の勉強の進捗を報告しています。統計検定準1級、E資格、G検定取得しました!当ブログへのリンクはご自由にどうぞ。

MENU

統計的因果推論のお気持ちを書く

はじめに&お詫び

現実が忙しすぎて投稿が滞っています。本当に少しですが記事の執筆も進めていますので気長にお待ちください。記事を書いているうちに統計的因果推論について書きたいことが増えてきましたのでまずお気持ちの説明だけしておこうと思ってここに書いておきます。統計検定にはあまり出ない部分ですが実用上よく使うのでぜひ。

 

統計的因果推論って何がしたいの?

統計学的に因果関係を示したい。以上です。

本日のブログはこれで終わりです。

統計学のモチベーションには色々なものがあり、例えば関連の探索(どの変数が結果に効いているのか)、予測(株価の予測、将来人口の予測)など色々なモチベーションがあります。これらのモチベーションの中に因果関係を示したいというものがあります。それを実現するための道具が統計的因果推論になります。

 

 

因果関係ってそもそもなんだっけ?

原因と結果の関係のことです。事象Aが事象Bに先行して発生し、事象Aが発生するか否かで事象Bが発生するかが変化するとき因果関係があるといいます。

因果関係を調べるにはどうしたらいいの?

全く同じ状況に対して、原因となる介入をする場合、しない場合で結果がどうなるかを比較すればいいです。簡単ですね。

 

昔々、僕はコーラを飲んだら歯が溶けますよって言われました。でも逆張りの幼少期ぼくはコーラを飲んでも歯が溶けないと思っていました。この因果関係があるかを検証するにはどうしたらいいでしょうか。コーラを飲んだ場合とコーラを飲まない場合を比較してぼくの歯の溶け方を比較すればいいです。

違う例を出しましょう。風が吹けば桶屋が儲かるということわざがあります。果たして本当でしょうか。全く同じ日に、同じ店で、風を吹かせる場合と吹かせない場合で桶屋の売り上げを比較すればいいです。

これらの場合、コーラを飲んでいた方が歯が溶けていたらそれはコーラを飲んだら歯が溶けるということが言えます。また風を吹かせた方が桶屋が儲かっていたら風が吹けば桶屋が儲かるということが言えます。

このようにして、因果推論の基本は、

①因果関係の仮説を立てる
②原因が何かを定義する
③結果が何かを定義する
④検証する

というような手順で考えることができます。

 

因果推論の何が難しいの?

これに関しては圧倒的に④検証するです。コーラを飲んで歯が溶けるか検証する例では、全く同じ条件下でコーラを飲んだ世界線とコーラを飲んでいない世界線を用意して比較検証しなくてはいけません。なぜなら、コーラを飲んだ、飲んでいない以外の条件が揃っていないと、その影響が因果関係に影響を与えているかもしれないからです。

例えば、AくんとBくんを用意して、Aくんにはコーラを飲ませる、Bくんにはコーラを飲ませないという条件設定をして、歯が溶けるか比較検討した際、たとえ歯の溶け方が異なっていても、個人差が影響を与えている可能性があるからです。現実的に、同一人物が同一条件下でコーラを飲みながらコーラを飲まないということはできません。これが因果推論の難しいところになります。

実際に同一条件下で比較することはできません。コーラを飲んだ場合と飲んでいない場合、同時に比較できないことから実際に行った方を事実、行っていない方を反事実と呼んだりします。統計的因果推論では実際に作り得ない反事実をどうやって近似するかということに多大な労力を費やしていて、これが統計的因果推論のお気持ちです。

実際に統計的因果推論をするときはどうするの?

個人レベルでは同一条件下に事実と反事実を同時に実現することができないから因果推論は難しいという話をしました。

なので、実際に仮説を検証する際は集団レベルでの検証を行います。ランダム化比較試験などを行うことが多いです。臨床研究などでランダム化比較試験が往々にして使われるのはこれが理由です。現実世界には反事実を生成できる「もしもボックス」が存在しないのでこういう周りくどいことをするわけですね。もしもボックスがあれば色々な研究ははちゃめちゃに進むと思いませんか?

最近、ランダム化比較試験は臨床研究のみならず、色々なA/Bテストを初め、分野を超えて活用されています。環境分野で使われてるのが最近のトレンドでしょうか。2019年のノーベル経済学賞なんかはこのモデルが使われていますね。以下の2冊は上記ノーベル賞研究者の著書です。臨床研究を超えた因果推論の話として読み物として非常に面白いので読んでみてください。