Syleir’s note

2020.4.1より統計検定やE資格の勉強の進捗を報告しています。統計検定準1級、E資格、G検定取得しました!当ブログへのリンクはご自由にどうぞ。

MENU

【Part3】統計検定準1級 時系列解析のまとめ【統計モデリング・ホワイトノイズ】

はじめに

本記事は統計検定準1級の時系列解析分野の一歩目を高校数学レベルから丁寧に解説してみようという趣旨です。対象は統計検定2級を取ったくらいの方から準1級の入り口で悩んでる方くらいが主な想定です。
さて、前回は、時系列分野の基本的な統計量について勉強しました。今回は趣向を変えて統計モデリングって何?ってところから時系列分野における主要な統計モデルについて触れていきます。

前回までの記事はこちらです。
syleir.hatenablog.com
syleir.hatenablog.com

1. 時系列データの統計モデリング

1.1 そもそも統計モデリングってなんだっけ?

一般に統計モデリングを平たく言うと、「得られたデータからその母集団が従う確率分布を仮定して、それに従うとするとどういう結論がもたらされるか?を吟味すること」です。さて時系列における確率分布のことを確率過程と言います。時系列解析における統計モデリングでは得られた時系列データが従う確率過程を仮定して、それに従うとするとどういう結論が得られるか?がトピックになります。ここで得られる結論は未来予測だったり、異常検知だったり、周期性だったり、最初の方にあげた時系列解析の動機を満たしてくれるので統計モデリングしていくことが重要な訳です。
基本的に統計モデリングなしになんらかの結論を言うことはできません。とはいえこれは少し強い主張をしてしまいましたが、基本統計量の分析などが終わると統計モデリングという作業が入ってきます。基本統計量やデータの性質をみてどの統計モデルに当てはめていくかを吟味し、結論を導くという手筈になっているはずです。統計検定2級範囲の各種正規分布の検定、t検定や分散分析だって、「この分布が正規分布、t分布、F分布に従うとしたら〜」という過程を絶対に経ているはずです。これこそが統計モデリングであり、「データをみてこのデータがどのような法則に支配されているかを仮定してあてはめる」ということがモデリングの本質になってくるでしょう。そうするとこの法則がわかることで未来の予測などの解析ができるようになるわけです。

1.2 主要な確率過程

さて、みなさんは統計検定2級で検定の前に何を勉強しましたか?主要な確率分布を勉強したはずです。準1級においてもまず確率分布の学習から始まります。統計モデリングにおいて、従うべき確率分布を仮定して結論を導きますが、例えば正規分布を仮定したとしても正規分布の性質を何も知らなかったら何も結論が出ません。基本的な性質を知る、これこそが我々が正規分布のあの意味不明な式を覚えて平均と分散を出したり、対称性を理解したり、積分したり微分したり母関数を求めたりしなきゃいけない理由です。また、従うべき法則を知らないと全く違う統計モデルに当てはめをしてしまって別の結論を得てしまったりするわけです。なので統計検定2級や準1級の冒頭では色々な確率分布を学びました。

さて、時系列における「確率分布」とはなんなのでしょうか。それは主要な確率過程を意味します。これからは主要な確率過程の満たすべき性質、どういうモデリングなのかを勉強する必要があります。統計検定準1級レベルで学習すべき確率過程には次のものがあります。

最後の方は呪文みたいになりました。般若波羅蜜多心経みたいになってしまいました。長いのでこれからはアルファベットの方を採用したいと思います。次の項から1つずつ解説をしていきます。

2. ホワイトノイズ

定義

共分散定常過程(弱定常過程)の平均が0、h \neq 0の全ての自己共分散が0の時その系列をホワイトノイズと言います。

実際にホワイトノイズの一例を出力して図示するとこんな感じになります。これは各時系列が、平均0、分散1の正規分布に独立に従うと仮定してサンプリングしたもので、ホワイトノイズになることが知られています。

ホワイトノイズ

時系列全体で平均が0で、前の時系列の影響を受けずに非常にランダムに動いている様子がわかります。

最初に紹介しておいて大変恐縮なのですが、時系列ではホワイトノイズに従うと仮定して統計モデリングをすることはそんなにありません。予測において、ホワイトノイズを統計モデルとして仮定するということは次の項がランダムに決まるよって言われているのと同じで、これって何も言われていないような気がしませんか?
例えば明日の株価を予測したいっていうタスクがあった時に明日の株価はランダムですとか、明日の最高気温を予測したい時に明日の最高気温はランダムですとかって言ったら馬鹿にしてんのかって言われてしまいます。ホワイトノイズは予測には向かないんですね。残念ながら。

しかし、ホワイトノイズは時系列解析においてたくさん出現します。逆説的ですね。何故でしょうか?

それは他のモデルの誤差項として登場することが多いからです。単独では何も言っていないのと同じお茶目なホワイトノイズちゃんですが、他のきっちりしたモデリングにくっつくことでそのモデルにランダムさを与え、柔軟なモデルを作り出すことができます。また、この後のMA過程では、ホワイトノイズが主役として登場します。単独では何もできないホワイトノイズが、どのような振る舞いをするか、みてもらえると嬉しいです。

3. 終わりに

今日の記事はここまでです。これが年内最後の更新にならないように頑張ります。
次回の記事ではARモデルについて書く予定です。少しずつ書いていくのでお待ちください!

→書きました
syleir.hatenablog.com