【Part3】統計検定準1級•1級生存時間解析のまとめ【生存関数・ハザード関数】

はじめに

更新が大変滞っており2ヶ月ぶりの更新です。申し訳ありません。

基本的な考え方について解説しました。

このパートでは生存時間解析において数理的な解析をする時に重要な概念である生存関数、ハザード関数について整理しておきます。
生存関数、ハザード関数の理解なくして生存時間解析の理解はありません。大変ですが、内容は高校数学程度なので頑張りましょう。

前提知識の確認

すでに十分な理解がある方は適宜飛ばしてください。

▼ クリックで展開

生存関数

生存関数はある時刻において生存している確率に主眼を置いています。

確率密度関数 $f(t)$ があり、 $t$ が時間を表しているとき、その確率変数 $T$ が $T>t$ を満たす確率の $t$ に対する分布を確率密度関数として $S(x)$ と表したものです。つまり、生存関数 $S(t)$ は時刻 $t$ を超えて生存する確率、つまり、確率変数 $T$ が特定の時間 $t$ を超える確率を表しています。

定義としては

$S(x)= P(X > x) = \int_{x} ^ \infty f(t) dt$

です。

性質としては、
$S(x) = \int_{x} ^ \infty f(t) dt = P(X>x)= 1 - P(X \leq x)= 1 - \int_{-\infty} ^x f(t) dt = 1 - F(x)$
が成立します。

ハザード関数

ハザード関数 $h(x)$ は被験者が時刻 $x$ まで生存したもとでのその瞬間の死亡の多さを定量的に表したものです。注意すべきなのは確率ではないため、1を超えることもあります。

定義は、
$h(x) = \lim_{\Delta x \rightarrow 0} \dfrac{P(x \leq X \leq x + \Delta x | X \geq x)}{ \Delta x}$

です。つまり、 $h(x) \Delta x$ が $x$ から $x+\Delta x$ までの間の死亡確率を表しています。

ここで、極限の中身の分子を上の条件付き確率の定義に従って式変形すると、
$P(x \leq X \leq x + \Delta x | X \geq x)$
$= \dfrac{P(x \leq X \leq x + \Delta x \cap X \geq x)}{P(X \geq x)}$
$= \dfrac{P(x \leq X \leq x + \Delta x)}{P(X \geq x)}$

です。2行目から3行目の式変形については、数直線を書けば（書かなくても）自明ですが、
$x \leq X \leq x + \Delta x$ という条件は $X \geq x$ を完全に包含していますから、
$P(x \leq X \leq x + \Delta x \cap X \geq x) = P(x \leq X \leq x + \Delta x)$ なので成り立ちます。

以下 $X$ が連続であれば、この変形を利用すれば、
$h(x) = \lim_{\Delta x \rightarrow 0} \dfrac{P(x \leq X \leq x + \Delta x | X \geq x)}{ \Delta x}$
$= \lim_{\Delta x \rightarrow 0} \dfrac{P(x \leq X \leq x + \Delta x)}{P(X \geq x) \Delta x}$
$= \lim_{\Delta x \rightarrow 0} \dfrac{F(x + \Delta x) - F(x)}{\Delta x} \dfrac{1}{S(x)}$
$= \dfrac{f(x)}{S(x)}$

となります（微分の定義）。この式から、 $h(x)$ は $S(x)$ から導くことができます。

また、累積分布関数 $F(x)$ は $F(x) = P(X \leq x) = 1 - P(X > x) = 1 - S(x)$ となるので、両辺微分して
$f(x) = -S'(x)$
を利用すると

$h(x) = \dfrac{S'(x)}{S(x)} ＝ - \dfrac{d}{dx} log(S(x))$

したがって、 $h(x)$ の累積ハザード関数として $H(x) = \int _0 ^ x h(x) = - log S(x)$ を定義すれば、 $S(x)$ から $H(x)$ を計算でき、それを微分することで $h(x)$ が計算できることになります。

これで、 $h(x)$ と $S(x)$ が相互変換可能であることがわかりました。
当然、 $h(x)$ と $S(x)$ からは $f(x)$ も計算できます。

練習問題

$h(x)$ と $S(x)$ 、 $f(x)$ が相互変換可能であることを利用していくつか計算問題をやってみましょう。

例題1

$h(x) = 1$ の時、 $S(x)$ , $f(x)$ は？
$H(x) = x = - log S(x)$ なので　 $S(x) = exp(-x)$

$f(x) = -S'(x) = exp(-x)$

例題2

$h(x) = \lambda$ の時、 $S(x)$ , $f(x)$ は？(指数分布)

$H(x) = \lambda x = - log S(x)$ なので $S(x) = exp(-\lambda x)$

$f(x) = -S'(x) = \lambda exp(-\lambda x)$

例題3

$f(x) = \dfrac{\theta \lambda^\theta}{x ^ {\theta + 1} } (\theta > 0, \lambda > 0, x \geq \lambda)$ の時、 $h(x), S(x)$ は？（パレート分布）
$S(x) ＝ \int _ x ^ \infty f(x) = \int _ x ^ \infty \dfrac{\theta \lambda^\theta}{t ^ {\theta + 1} } dt$
$= -[ \dfrac{ \lambda^\theta}{t ^ {\theta} }]^\infty _ x=\dfrac{ \lambda^\theta}{x ^ {\theta} }$
$H(x) = - logS(x) = \theta log (x) - \theta log(\lambda)$
$h(x) = \dfrac{d}{dx}H(x) = \dfrac{\theta}{x}$

または

$h(x) = \dfrac{f(x)}{1-F(x)} = \dfrac{f(x)}{S(x)} = \dfrac{\theta \lambda^\theta}{x ^ {\theta + 1} } \dfrac{x ^ {\theta} }{ \lambda^\theta}= \dfrac{\theta}{x}$

例題4

$S(x) = exp(-\lambda x ^ \alpha)(\alpha, \lambda > 0, x \geq 0)$ の時、 $f(x), h(x)$ は？(ワイブル分布)

$f(x) = - \dfrac{d}{dx} S(x) = - \dfrac{d}{dx} exp(-\lambda x ^ \alpha) =\alpha \lambda x ^ { \alpha - 1} exp(-\lambda x ^ \alpha)$
$h(x) = \dfrac{f(x)}{S(x)} = \dfrac{\alpha \lambda x ^ { \alpha - 1} exp(-\lambda x ^ \alpha)}{exp(-\lambda x ^ \alpha)} = \alpha \lambda x ^ { \alpha - 1}$

以上を通じて、相互変換可能性というものがお伝えできたでしょうか。

かなり恣意的な関数が例題に上がっていますが、積分不可能であったりする関数も世の中には多いためです。そういう時はコンピュータシュミレーションで頑張りましょう。

ハザード関数の意義

では、相互変換可能なのであれば、どうしてハザード関数を用いるのでしょうか？
もともとの確率密度関数f(x)や、生存関数S(x)を使った方がわかりやすいのではないでしょうか？
本章ではハザード関数がなぜ存在するかを説明していきます。

視覚化としての意義

もちろん生存関数をグラフ化してもどこでたくさんイベントが起こっているかはわかりますが、ハザード関数として描出した方が、時間あたりのイベントの起こりやすさが可視化しやすいです。生存関数を見せられるよりは、イベントがどのタイミングで起こりやすいのかを見せた方が、人間は理解しやすいです。

モデリングとしての意義

さらに、ハザード関数は予測モデルの作成にも使用されます。なぜ可視化するのかの大きな理由が、「直感的に理解しやすいから」です。人間が理解できる関数を使うことで、実世界の事象を記述しやすくなります。

ハザード関数を使用する方が、簡単にモデリングができ、直感的にわかりやすいです。ハザード関数を用いたモデリングの例がCox比例ハザードモデルで、疾患のリスク要因や治療効果を評価するのによく用いられます。統計検定の出題範囲にも含まれています。それはおいおい扱いたいと思います。

おわりに

少しヘビーになってしまいました。凖1級の勉強としてはここまで、あるいはこの次までで良いと思います。
次回以降は具体的な応用、カプランマイヤー曲線について話したいと思います。

次回記事です。
syleir.hatenablog.com

Syleir’s note

2020.4.1より統計検定やE資格の勉強の進捗を報告しています。統計検定準1級、E資格、G検定取得しました！当ブログへのリンクはご自由にどうぞ。