Syleir’s note

2020.4.1より統計検定やE資格の勉強の進捗を報告しています。統計検定準1級、E資格、G検定取得しました!当ブログへのリンクはご自由にどうぞ。

MENU

【Part2】統計検定準1級•1級 生存時間解析のまとめ【導入・考え方】

はじめに

前回の記事では過去問の分析、現在の勉強方法などについて書きました。今回は生存時間分析の「お気持ち」、普通の解析と何が違うのか、何をしたくてこんなことをするのかについてまとめていきたいと思います。
何が見たいかがわかると、なんでこんな式が登場するのかの理解がとてもやりやすくなります。
ちなみに、ワークブックの行間を埋めることを目標としているので、こういう「お気持ち」の解説に一番力を入れています(笑)

生存時間解析とは?

生存時間解析というと、その名称から「死亡までの時間」についての解析だというイメージがつきまといますが、実際にはそれに限らず、もっと幅広い分野で使われている解析です。生存時間データ解析とは、「イベント」までの時間データに対する解析という意味です。「イベント」は、「死亡」でなくとも良いのですが、生存時間解析ではよく死亡を扱うため、生存時間解析と呼ばれています。よって、取り扱われるテーマとしては、次のようなものがあり、多岐に渡ります。また、「イベント」はネガティブなものだけでなく、ポジティブなものでも構いません。

・疾病の再発までの時間
・疾病の治癒までの時間
・工業製品が故障するまでの時間
マッチングアプリカップル成立までの時間
・もちろん統計検定の合格までの時間などもテーマとしては悪くないでしょう。

ただ、やはり主要な目的としては、どれくらいの時間が経過した状態で、どれだけの人が生存しているかという生存数-時間関係の解析です。
これを省略して生存(数-)時間(関係の)解析と思っていただくのが1番スマートかと思います。

通常の回帰分析との違い

ところで、通常の回帰分析でも死亡をアウトカムにした分析ができると思いませんか?ここをはっきりさせることが、生存時間分析の文脈においては非常に重要です。回帰分析と生存時間解析の違いが、直接そのまま生存時間解析の特徴であり、勉強しなければいけないことになります。

1.なにに関心を置いているか

通常の(重)回帰分析で死亡の解析をする時のモデリング
 y = \beta_0 + \beta_1 x_1 + ... + \beta_n x_n + \epsilon
などとして計算します。この yに死亡しているかどうかを入れ、 \betaに興味関心のある共変量を入れて解析します。
つまり、回帰分析で知りたいのはアウトカム-共変量関係です。平たくいうと、「何が死亡に影響を与えているか」を関心にしています。5W1Hで言うとWhatに関心があります。共変量に時間を表す要素を入れない限りは、時間依存的な解析は起きず、アウトカムを取った時間でのみの解析をしていることになり、途中の時間で何が起きているかはそもそもデータを取っていないため解析できません。
全然厳密ではないですが、イメージはこうです。

通常の回帰分析では時間経過に関心が(あまり)ない

ちなみに脱線しますが、共変量に時間を入れた回帰分析はあります。興味があれば読んでみてください。
【統計的因果推論】分割時系列解析の初歩を解説する【ITS 回帰不連続デザイン】 - Syleir’s note

一方で、生存時間解析で興味があるのが、先ほど述べたように生存数-時間関係です。5W1Hで言うとWhenに関心があります。共変量をモデルに組み込むこともできますが、主眼としては、その結果、どのタイミングでイベントが起きやすいかに関心が主にあります。
つまり、生存率ー時間関係が時間経過でどのような経過を示すのか、に興味関心が強いと言うことになります。
どのような経過を示すのか、を説明するものが、「ハザード比」「生存関数」といったもので、これらを学ぶ必要があります。

生存時間解析では生存率ー時間関係を丁寧に観察する

2.データの性質

1.で述べたこととも関連がありますが、生存時間解析ではデータの取り方も時間ごとに丁寧にデータを取ります。通常の回帰分析ではアウトカムの評価をするタイミングでデータを取るのに対し、生存時間解析では解析対象によって、年、月、週など時間軸は異なりますが、時間ごとにデータを取る必要があります。また副作用などで離脱した人(打ち切り:後で説明します)のデータも細かく収集します。

3. 統計モデル

通常の回帰分析では、線形回帰、ロジスティック回帰などの手法で解析しますが、生存時間解析には特殊な解析手法を用い、生存時間解析には、生存曲線を推定するためのKaplan-Meier法やハザード比を評価するためのCox比例ハザードモデルなど、イベントのタイミングにフォーカスを当てた専用の統計モデルがあります。

まとめると、生存時間解析は時間に関する情報を重視し、イベントが発生するまでの時間に焦点を当てるのに対し、通常の回帰分析は時間をあまり気にせず、イベントの発生を予測することを目的とします。時間に依存する状態を知るため、「ハザード比」、「生存関数」、「データの取り方」、「打ち切り」、「Kaplan-Meier法」、「Cox比例ハザードモデル」など生存時間解析に特異的な学習をする必要があります。

そしてこれは、前記事の到達目標で述べた
・生存関数などの数式的な定義を理解し、初歩の考え方を学ぶこと、それにより各関数が計算できるようになっていること
・カプランマイヤー曲線の作成、ログランク検定、ハザード比の推定、そして比例ハザードモデルの理解
で概ね達成できていることが分かります。

おわりに

次回以降の記事で学習内容について1つずつ解説をしていこうと思います。遅筆ですがお待ちいただけますと幸いです。