Syleir’s note

2020.4.1より統計検定やE資格の勉強の進捗を報告しています。統計検定準1級、E資格、G検定取得しました!当ブログへのリンクはご自由にどうぞ。

MENU

【統計検定準1級】自分のスキルセット、使用教科書について

統計検定準1級の学習にあたって、おすすめの勉強法やおすすめの本などの記事はありましたが、そのレベルに留まり、個々人がどのようなレベルまで到達しているのかということがわかりませんでした。そこで、できるだけ明確に自分の到達レベルを記録することで今後勉強する人に役立ててほしいということ、また自分の現段階のスキルセットを、確認としてできるだけ正確に記録しておきたいというモチベーションにより、今回この記事を書くに至りました。記事の項目の順番に意味はなく、思いついた順番です。出先で書いているため抜けもあると思います。適宜、補筆、修正をかけていきます。

 

統計学徒の皆さんには烏滸がましい注意ですが、  n = 1 の経験則なのであまりアテにしすぎないようによろしくお願いします。

 

出題範囲についてはこちらを参照のこと。

https://www.toukei-kentei.jp/wp-content/uploads/grade1semi_hani_190628.pdf

出題範囲と実際に出題されている分野に異常な乖離があるので気づいたところは書いていきます。

 

0.基礎数学

微積分、線形代数については齋藤正彦先生の微分積分学線型代数学で勉強しました。ベクトルの微分、行列の微分などは比較的扱いが薄かったので、パターン認識と機械学習(上)で勉強していました。

1.数理統計

数理統計の持っている知識は現代数理統計学の基礎で身につけた。準1級だけなら完全にオーバーワークな印象。

日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブックの数理統計分野はよく出来ていると思います。これをやって弱いところを補完するのがよさそう。

演習で有名なのは数理統計学ー基礎から学ぶデータ解析入門・演習 数理統計です。

キーワードで出題頻度が高そうなのは、変数変換、積率母関数、最尤法、モーメント法、信頼係数とか?

 

1.1主要な確率分布と母関数

1級ほどゴリゴリの計算はでない印象だけど一応一通りは計算できるようにした。有名なものは式の形まで覚えた。母関数の計算はある程度やっておいて損はないと思います。ベータ分布とかガンマ分布とかカイ二乗分布とかの数理的な性質がわからない人は明解演習 確率統計がおすすめです。この本は古い本ですが性質をちゃんと問題にしてくれていて解説もわかりやすかったです。

1.2変数変換

印象としては変数変換した後の分布を直接計算させる問題は少ない。変換後の平均と分散だけ分かればいいものが多い。公式でいけそう?モーメント母関数利用して E[exp(x)]計算させる過去問めちゃ賢いと思った。

1.2.1畳み込み

統計検定1級によく出てくる、  Z = X + Y,   T = Xと置くやつ。たまに見かける印象。

1.2.2デルタ法

統計検定1級の勉強するときに勉強した。いろんな検算にも便利。証明は覚えなくても結果は覚えたほうがいいと思う。使用条件や前提となるスラツキーの定理の説明はしない。

 X が分散  \sigma正規分布  N(\mu , \sigma ^ 2) に従う時、  f(X) の分布が  N(f(\mu), f'(x)^2  \sigma ^ 2) で近似されるというもの。 あくまでも近似なので厳密解を出す問題では使えない。1次近似なので線形変換なら使えますけど線形変換は正規分布じゃなくても使えるちゃんとした公式があります。(普通に変換すればいいのはさておき)

数理統計を勉強するときに案外使うので一回は理解しておくと嬉しいことが多いと思います。

1.3二変量正規分布

1.3.1条件付き確率分布

Xを与えた時のYの分布は f_{Y|X}( y|x) =\dfrac {f(x,y) }{f_{X}\left( x\right)}で与えられる。条件付き確率分布の条件付き期待値はなぜか二変量正規分布でばかり出題されている。他の分布だと計算量が多すぎるから?
 X を定めた時の、  Y の条件付き分布が
平均  \displaystyle \mu_{Y} + \frac{\sigma_{XY}}{\sigma_{X}^2}(X - \mu_{X}), 分散  \displaystyle \sigma_{Y}^2 - \frac{\sigma_{XY}^2}{\sigma_{X}^2}
正規分布に従うという知識が前提の問題もあったりする。困ったことに。これを計算していたら日が暮れてしまうのでこれを覚えなきゃいけないという事実、誰も教えてくれなかったんですけど裏技とかあるんですかね。多分これは丸暗記が必要なやつです。各文字の意味や次元を考えることで覚える量は減らせます。なお2021年は三変量が出ました。

 

2.推定と検定の考え方

雰囲気自体は統計検定2級の検定とそんなに変わらない印象。2級の問題が完璧ならここは合格水準に達するんじゃないかなとも思う。基本的には2級の問題集や学習サイトで勉強して、そのあとは2級の問題を誘導減らして解くのも練習になると思います。得点源。概念理解は統計学入門がおすすめです。この本は2級受験者には難しすぎるとかボロクソに言われてますけど、準1級受けるならこれくらいは理解できた方がいいです。

2.1正規分布に関する検定

2.1.1 2標本の平均の差の検定

この辺になってくると2級でもちゃんとやってる人しか覚えてないと思う。2標本間で等分散性を仮定できるが、未知である場合、標本の不偏分散から母分散を推定する。この時の母分散の推定量をプールした分散といい、

 \displaystyle s^2 = \frac{(n_1 - 1) s_1 ^2 + (n_2 - 1) s_2^2}{n_1 + n_2 - 2} で表す。

これを用いて、 \displaystyle \frac{\bar{X_1} - \bar{X_2} - \delta_0}{s \sqrt{ \frac{1}{n_1}+\frac{1}{n_2}}}が自由度  n1 + n2 -2 t 分布に従うことを利用する。各文字の説明は成書に譲る。

2.1.2 母相関係数の検定

相関係数の検定についてはシラバスに範囲であることが明記されているが1級の教科書にも準1級のワークブックにも書いていないので調べておくといいかもしれない。未出題

 \displaystyle \frac{r}{\sqrt{1-r^2}} \sqrt{n-2} が自由度 n=2 t 分布に従うことと、フィッシャーのz変換というものが初出の知識。

 

2.2 適合度検定

統計検定準1級は適合度検定が異常なほど好きです。なんでなんですかね。自然科学の統計学が詳しいですがそんなに難しくはないです。

 

2.3 ノンパラメトリック検定

今までに出題されているのはウィルコクソン検定だけ。しかも丁寧な誘導付き。本番で出て面食らわないように他の検定もp値求められるくらいには見るくらいはしておいてもいいかもしれない。そんなに出題はないですが、ワークブックはかなり説明が充実しています。

 

2.4 サンプルサイズの決定

ほぼ毎年出題されています。成書としてはあまりなく、古いですがサンプルサイズの決め方くらいしか使える物がない。ワークブックと流派が違いますが考え方が違うだけで同じ答えがでます。ワークブックの説明が?ってなったら見てもいいかも。

3.回帰分析

3.1単回帰分析

3.1.1最小二乗法

そもそも線形単回帰って1級範囲ではあるのに準1級範囲じゃないんですよね。線形単回帰やらないで重回帰分析が範囲なのちょっとチグハグな気がしますけど。この辺はE資格の機械学習分野の勉強でやりました。


 \hat{y} = \beta x の回帰直線を最小二乗法で求めるとき、残差を最小にする  \hat{\beta} は、
 \hat{\beta} =  r_{xy} \frac{S_y}{S_x} =  \frac{S_{xy}}{S_{x}^2} で与えられるくらいは知っておいてもいいかも。簡単な偏微分でできるけど、計算がなくても回帰式が分散と共分散で表されるという知識は意外と便利。

単回帰分析の演習は心理統計学ワークブックがめちゃくちゃおすすめです。今回は数理寄りということもあってそのまま出題されたものもありました。この本は一応、これこれをベースにしたワークブックなので教科書を前提のところもありますが、解説がとても丁寧なのでワークブック単独でも解いていけるのがおすすめポイントです。

 

3.2重回帰分析

上に言ったように単回帰の数理的な分析もやらないのにどうやって重回帰分析やるの?って話なのでメインは重回帰分析のモデリングとRで解析した後の結果の見方がメインな気がします。複数のモデルで重回帰分析してその結果からどれが一番いいモデルかを問うています。現実の統計解析でもどれが一番いいモデルかを判断する方法は色々あるので、問題文に沿った解答をしましょう。記述だと自分で評価基準を選んで判定する、みたいなのも出題されている。ちなみに出題範囲では正則化はL1だけだけど全然余裕でL2とかfused Lassoとか出てる。もはやずるい。E資格で正則化についてはかなり丁寧にやるので大丈夫だったけど初習だと厳しそう。入門はじめての多変量解析がわかりやすくて良かった。この教科書は線型代数の計算をいちいちほどいて計算してくれているので初学者に優しいです。概念の言語化もうまい。慣れてくるとやや冗長に感じるけど。

3.3回帰診断図

4つのプロット図が何を言っているのか、どういう状態の時に何が示唆されるかを理解した。頻出なのでしっかりめにやった方がいいと思う。これはワークブックでいい。

 4.主成分分析

共通性と因子負荷量の解釈、回転とはどのような操作か、主成分の解釈、寄与率の解釈など。これもE資格が生きると思います。実装までやったので。
具体的な操作や計算は入門はじめての多変量解析がめちゃくちゃわかりやすくてよかった。

5.判別分析

線形判別、2次判別、サポートベクターマシンの違いを理解した。サポートベクターマシンの動き方はE資格でやった。ちゃんと勉強しなきゃなーって思いながら2019の記述で出たし連続では出ないでしょって思ってスルーしてしまった記憶があります。ごめんなさい。

6. 共分散構造解析

グラフィカルモデルやパス図を絡めた記述での出題が多い印象。この分野何で勉強したらいいんですかね。ネットで適当に勉強した。パス図の書き方は勉強するといいと思う。統計検定では1級での出題も多くてそれも案外役に立ちます。

7.時系列解析

自己共分散、自己相関係数の定義がわかる、弱定常過程、強定常過程の定義が言える、AR,MA,ARIMAを数式で定義できる、グラフをみてモデル選択基準がわかる、スペクトラム、デンドログラムの気持ちがなんとなくわかるくらいはやりました。
何よりも大事なのはDW比の近似式と意味がわかるです。統計検定準1級は異常なくらいDW比好きです。成書では時系列解析入門現場ですぐ使える時系列データ分析がおすすめ。後者は実務よりなので資格試験目的なら前者がいいかも。

syleir.hatenablog.com

まとめ記事を作りました。 Part6まであります。読んでみてください。

 

8.クラスター分析

クラスター分析、COVID−19のせいで原義を離れて使われるようになってしまったせいで、検索結果に汚染が起きています。いやですねこういうの。

8.1階層的手法

5手法(最近傍法、最遠隣法、重心法、群平均法、ウォード法)がどういうものか説明でき、データが与えられた時に実行できるようにしました。順方向性の説明ができなくても逆方向の「各手法の説明→各手法名」が出てくれば十分という気がしています。デンドログラムを読めるようになりましょう。意外と難しい。いつ記述に出てくるかわかりませんが、記述での出題を想定するなら、統計検定1級の2019年の人文科学問2、2018年人文科学問4がいい例題なので解いてみると良さそうです。

8.2非階層的手法

K-meansのアルゴリズムを説明できるようにしました。とはいえこれもE資格でやりました。(機械学習分野関連の出題が最近多いのでこの辺も出題頻度上がりそうです)実際にデータを与えてアルゴリズムを動かす出題もあったのできちんと理解しておくと良いと思います。 k-meansについてはどの機械学習本にも実装が載っています。おすすめはYouTubeなど動画で挙動を確認することです。

9.マルコフ連鎖

マルコフ連鎖は計算が手計算でできるレベルなので記述でよく出題される印象。マルコフ連鎖は簡単な上によく出るので絶対抑えた方がいいです。ワークブックもわかりやすい。加えて演習を積みたいなら一般的にこの界隈で青本と呼ばれる自然科学の統計学ですね。

10.確率過程

時系列、マルコフ連鎖の基礎になる部分です。しっかりやりましょう。時系列解析の教科書が詳しいです。

 

11.分散分析

1元配置分散分析は2級範囲ですが準1級以上は二元も出題されます。モデルとなる式の立式、帰無仮説と対立仮説はなんなのか、を理解し、分散分析表を書けるようにしました。2元配置分散分析では交互作用を考える必要がでてきたり、ブロック項を導入したりするのでその辺の理解が肝です。区間推定や1番いい結果を与える水準をどうやって考えるか、直交表の作り方とかまで含めて記述でよく出る印象なのでしっかり理解して手を動かすことが大事なんだと思います。ここも心理統計学ワークブックがおすすめです。めちゃめちゃ演習を積める。公式のワークブックの例題もかなり充実しています。1級でもちょくちょく出ているので演習に関しては困りにくいかなと思いますが記述で適応条件とか聞かれるので、背景に関しては自然科学の統計学などの教科書で補うとよい。

12.生存時間解析

今まで出てるのはちょっとしたハザード関数の計算のみ。しかも丁寧な誘導付き。深くやりたければ統計検定1級の医薬生物学の過去問にカプランマイヤー法の手計算の問題があったり、数理統計的な計算問題がありますが、そこまではオーバーワークな印象。1級対策として自分はクラインバウム本デビッドホスマー本を使っていますが流石にこのレベルでは出ないと思う。出たらごめんなさい。

 

13.ベイズ

おすすめの教科書については別記事でまとめました。ご参照ください。

syleir.hatenablog.com

13.1事前分布、事後分布

だんだん出題が増えてきている印象を受ける。考え方についてはこれで簡単な勉強をした。結局公式使えればいいような印象。

13.2階層ベイズモデル

階層ベイズの導入の考え方はデータ解析のための統計モデリング入門がめちゃいい。自分は数理から入って階層ベイズの必要性がいまいちわからなかったけどこの本を読んで理解できた。名著って言われるだけあります。

13.2.1ベータ・二項分布

よく出題されている感じがある。2015など。
ベータ分布のモードや期待値を計算できるようになっておく必要がある。

13.2.2ガンマポアソン分布

まだ出題されていないけどベータ二項分布が2回出てるのでぼちぼちな気もする。ガンマ分布のモード計算とか期待値計算めんどくさいですよね。せめて出すときは確率密度関数を出してほしいという願望があります。 

 

13.3ギブスサンプリング

例題に出題あり。多変数の分布を計算可能な条件付き分布から計算していく。

13.4MH法

上3つの小項目は実は1級範囲なのにこれだけ準1級範囲。なんで?
詳細釣り合い条件を満たす確率分布を適当な計算しやすい分布に置換して確率的補正を行うことでサンプリングを行う。天才の所業。
2018
年に出題されているけどそんなに深いことは聞かれていなくて、定義通り計算していけば解けるようになっている。
式を暗記する必要はないと思うけど式が何を言っているのか、採択確率はどういう意味なのかを理解するといいと思う。

初歩的なところの解説記事を書きました。読んでみてね。

syleir.hatenablog.com

 疲れてきて後半ぐだってしまいましたが大まかには自分のやってきたことをお伝えできたかなと思っています。来年以降はCBT導入され、情勢も変わってくると思いますがこれから受験される方は頑張ってください。