syleir’s note

2020.4.1より統計検定1級の勉強の進捗、解説、勉強を備忘録形式に綴ります。

今後の目標

当面の目標にしていたE資格の受験が終わりました。次は統計検定準1級を目標に頑張りたいと思います。苦手だった機械学習分野もE資格の勉強とともに学習が深まってきているのと、中止になった昨年の統計検定1級に向けた勉強が合わさって、なんだかいけそうな気がしています。

 

統計については将来的にも使うのでしっかりとした礎を築くことを目標に地道に頑張りたいと思います。

E資格受験体験記

2021年2月20日にJDLAのE資格(JDLA Deep Learning for ENGINEER 2021 #1)を受けてきたのでその振り返りをしたいと思います。

たくさん書いたので見たいところだけ見てください。

自分のスペック

  • 大学生
  • 非理数、非情報系
  • 東大数学80点くらいの高校数学力
  • いわゆる大学数学を学んでいない
  • 統計が好きで数理統計学の勉強をしていた
  • pythonはちょっとだけ使えてた(AtCoder緑)
  • ディープラーニング?なにそれおいしいの?

受講講座について  

もともとはAVILEN様の全人類がわかるE資格コースを受講していた。受講動機は単純に安かったため。学割が効いて10万円以下で申し込めた。修了プロダクト作成以外のところまではやりました。修了試験は難易度が高く、この合格率の高さはここに起因するのかな〜なんて考えていました。あとプロダクト課題がめんどくさいので意識高い人しか生き残りません。受講者同志の slackがありますが最後の方は意識高すぎてROM専してました。公式例題の解説が比較的しっかりしているのでそれがよかったです。ただ勉強に使う動画サイトのUIが使いにくい。

また応用数学機械学習分野は講座に含まれていませんが修了試験を突破しなくてはいけません。まあまあ難易度があるので、完全な初学者は覚悟を持ってチョイスした方がいいと思います。

avilen.co.jp

 

そうこうしているうちにスキルアップAI社さんのAIエンジニアになるための長期インターンプログラムが始まったのでこれを取ってみました。タダだったので。こちらは応用数学分野や機械学習分野も講座セットに含まれているのでよかった。こちらは質問対応はない(受講者同志で解決する)方式でした。たぶんお金を払うと質問対応や課題についてのオプションがついてくるんだと思います。プロダクト課題もそんなに難しくなく、自分は最終的にこちらで修了申請を出しました。あと模試もタダで受けさせてくれるし、黒本もくれました。太っ腹すぎて感謝が止まりません。スキルアップAI社さん、ありがとう。ただ公式例題の解説は真面目に書いた方がいいと思います。AVILENさんは公式例題の解説動画もありますし。。

www.skillupai.com

 

受講講座の選び方

  1. 予算
    会社が出してくれるのか、個人で出さなくてはいけないのか、各々事情があると思うのですが、実質的に個人の学生にとっては講座の選び方はこれに尽きると思います。
  2. 修了のためのプロダクト演習の難易度
    E資格は各社の講座で修了のためにプロダクト演習をしなくてはなりません。そしてこれははっきり断言できますが、受講講座の修了のための演習と、本番のE資格試験で点をとるための能力は別物です。E資格だけを目的に割り切るなら、当たり前ですが、修了は簡単な方が良いです。何が修了プロダクトに求められているかはしっかり認識した方が良いでしょう。
  3. サポートの手厚さ
  • 対面なのか、オンラインなのか。
  • 質問に答えてくれそうか、そうでないか。
  • 修了試験は何回まで受けられるのか。
  • 修了試験に落ちた場合追試にかかる金額はいくらか。
  • E資格模試は無料で受けられるのか。
  • 復習講座は充実しているか。
  • など、実際に受講してみないとわからないことが多いです。特に模試や追試など、書いてない出費が意外と起こり得るので焦ります。リサーチは丁寧にした方が良いです。

受講上の注意

受講に際しては特に言うことはないです。動画を受講して進めていけばよいです。ただ、スケジュールに余裕を持って進めることを強く推奨します。E資格本番の試験申し込みは先着順で、早く修了しないと希望の会場、希望の時間帯で試験を予約できないという事態が発生します。自分も相当早めに修了したつもり(下記事参照)でしたが、最寄りの土曜日受験枠はあと2枠しか残っておらず、ちょっと焦りました。

 

syleir.hatenablog.com

また、自分はプロダクト作成課題のコードで原因不明のバグを生み出して、それの解消に2週間かかりました笑

初心者は何をしでかすかわかりませんので、そういう意味でも経験の少ない人ほど、早めに準備するのがよいと思います。

 

受験戦略

E資格はG検定同様、合格率の高い試験ですが、明確に違いが存在します。E資格は講座修了という足切り制度が存在します。したがってG検定のように記念受験は(ほぼ)存在せず、比較的高いレベルでの殴り合いが想定されます。似たような構図なのが医師国家試験や薬剤師国家試験で、あれも6年間の教育課程を終えた人たちでの殴り合いで、一般の人たちには厳しい戦いであることが想定されます。E資格は世間的にはニッチな分野での試験ですから、そこそこバックグラウンドのある人たちが受験しています。色々なブログを参考にさせていただきましたが、情報系学生、システムエンジニア勤務、プログラミングは10年やってきました、などさまざまなイキリ経歴を確認してきました。

そこでG検定の時にとった受験戦略をとっても通用しないわけです。ここで考えたのが、修了課題とE資格試験を明確に区別してE資格試験に向けた対策時間をきちんと確保するということです。1月に修了してから、今回の受験まで、1秒もコーディングはしていませんし、コーディングと試験勉強は別物、という割り切りが必要だと思います。

 

使用教材

番号が若い順に優先順位が高いです。

たくさんアクセスが得られるようになったらアフィリエイトリンクにこっそり差し替えてお金を稼ぎたいと思います!!!!(小声)今は普通のリンクを貼っているので安心して踏んでください!!!

  1. 徹底攻略ディープラーニングE資格エンジニア問題集
    通称黒本。これだけやってても受かるんじゃないかという気がします。E資格は過去問がないのでこれが実質唯一の問題集。これをやらないのは利敵行為です。これは3周しました。
    この本を買った時にまずやることは版を確認した後に正誤表を最速で開き訂正を全ページに書き込むことです。誰もこのことを教えてくれなかったのでここに書いておきます。JDLAの公式例題にも間違いがあるくらいなので多少の過ちは許してあげましょう。だって人間だもの。
  2. 深層学習 (アスキードワンゴ)
    1でわかんなかったところを読む本です。通読する本ではありません。ただ辞書目的で絶対に持っておくべき本。意外と在庫がなかったりするので紙で欲しい人は見かけたら買うことをお勧めします。全部読んでる暇があるなら1を解いたほうが良い。名著ではあるので暇なとき読むとはえ〜おもしろ〜となることも多いですが、、
    試験対策としてこれを全部読むとか、ここから語句が出るのでそれを読むとか書いてあったブログもありましたが個人的には試験対策として割り切るなら不要だと思います。これを全部理解できるならこの資格レベルの人ではありません。共同研究のお誘いをお待ちしています。

  3. ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
    通称ゼロつく。(通称ダサくないですか?)これもやらない人は利敵行為です。ただこれもコード全部覚えたとかそういう人もいましたがそれはやらなくていいと思います。この本以外でNumpyベースでDeep Learningの実装をしている本を見たことがないので多くのプロダクト演習やコーディング演習の作成者はこのコードを参考にしていると思います。この本のコードを丸パクリあまり独自性を付加せずに参考にしているだけで通るコーディング課題もあります。
    DL手法のアルゴリズムや数式をコードに落とす方法を書いてくれている本なので、丸暗記というよりはその方法論を学ぶための本です。E資格試験の実装問題においてもこの方法が大事なので、コードへの落とし方を勉強しましょう。

  4. ゼロから作るDeep Learning ❷ ―自然言語処理編
    3の自然言語処理版。3,4全て全部E資格範囲。暗記は不要ですが通読しておくと概念の理解ができていいと思います。特に黒本の自然言語処理範囲は難しいのでこれを読んでからやるべき。最近流行りのAttentionなどが明快に説明されているのがよき。

  5. 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [改訂第2版] 入門から実践まで (KS情報科学専門書)
    正月にBOOK OFFで見かけて買ったら大当たり。講座の強化学習、わかりにくくないですか?強化学習はコーディング問題は出ない(と認識していますが出たらすみません)のですが、概念からコーディングに至るまできちんと説明してくれていてよかったです。来世ではちゃんと新品で買って著者様にお金を落としたいと思います。

  6. パターン認識と機械学習 上
    通称PRML。普通の人にはレベルが高いので全人類おすすめってわけじゃないですが機械学習分野では意外と難しい問題が出るのとこの本の言い回しがよく出てくるので本当に時間が余ったらやってもいいかなと思ってます。ただ東大生とかが1年かけて輪講とかでやってるイメージの難易度感なので、覚悟を持って挑んでください。機械学習におけるバイアスバリアンス分解の考え方はこの本から学びました。機械学習分野の勉強って何したらいいかわかんないですよね。いい方法あったら教えてください。

  7. Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎
    一通り機械学習の考え方や手法を解説してくれています。概念理解にお勧め。コードはscikit-learnを使っているのであまり参考にならないかもしれません。

  8. 現代数理統計学の基礎 (共立講座 数学の魅力)
    ネタ枠です。統計学徒はこの本かこの本を統計の勉強するときにお勧めしなくてはいけない病気を持っています。真面目な話をすると統計検定の勉強をしていたため、E資格の統計の対策をしたことがありません。たぶん統計検定2級相当+多次元正規分布くらいの勉強が求められているんだと思います。強化学習の期待値の計算とか、方策勾配定理とかGANの期待値の計算とか、バイアスバリアンス分解の計算とか、地味に統計知識出てくるのが難しいですよね。自分は一般の方寄りではないと思うので統計の勉強方法は他の人を参考になさってください。

 

分野別対策

  1. 応用数学
    これは得点源です。特異値分解固有値分解、期待値計算、情報理論、きちんと理解しましょう。
  2. 機械学習
    最低限黒本の内容は理解しましょう。機械学習の中に深層学習は包含されているので、深層学習の勉強をしていれば、機械学習特有のアルゴリズムの対策を個々にしておけば大丈夫です。SVMやk-meansなどをしっかり理解しておくことは大事です。non deepな機械学習も深層学習の技術の一部に使われていたり、類似性があったりするので、そういう意識を持って勉強していくことが大事だと思います。
  3. 深層学習
    まずは講座を見て概念理解に努めましょう。基本的に講座はわかりやすさを優先して厳密な議論を捨てていることが多いのでそういうときは原著論文や教科書で確認しましょう。定義やアルゴリズムの理解が大事なのでわかった気にならないように、定義にしたがって理解していくことが重要だと思います。シラバスに乗ってない最新手法の論文を追う必要はないと思います。基本の理解が大事です。
    時間があったら最新手法の論文ではなく、基本の手法の論文のFigureやGraghを見てお気持ちを理解するという勉強法がお勧めです。いつかまとめます。
  4. 強化学習
    これは対策が難しく、普通にやっていたら時間が足りません。最低限の勉強としては方策勾配定理を覚える、SarsaとQ学習の違いを覚える、あたりが落とし所でしょうか。たくさんブログやQiita記事があるので困ったらそれに頼るのも手です。

 

演習量の確保について

これは多くの人が悩む問題なのではないでしょうか。

修了テストの問題はあまり質のいい問題とは思えません。追試料金徴収のために難しく設定されているような意図を感じてしまいます。また問題に厳密性がなかったり定義不明だったりしてストレスが溜まります。

となると現実的な演習として黒本と公式例題を解くという2つしかありません。なので本番の時間形式で100問解くということが相当厳しいです。

ですから、模試に関してはお金の許す限り受けたほうがいいと思います。他の受験生に対する差別化になります。

またE資格に限りませんが、普段の映像授業や論文を読むときにこの文章からはどんな選択肢が作れるか?を意識して取り組むと自分だけ演習量を増やせてお得です。本当にお勧めのライフハックなので全人類やりましょう。

 

、、とは言っても普通の人はコンピューターと違って黒本に過学習になることはないと思います。3回取り組んでも穴は残っていたので黒本ベースでたくさん取り組んでいくのが多くの人に取って正解択でありそうです。解説も含めてしっかり理解する、これで良いのではないでしょうか。

試験当日

指定時間よりも早く行っても早く始めさせてくれました。途中退出もできます。ポケモンGOのイベントで忙しかったので助かりました。問題については一切触れてはいけないことになってますので触れません。

当日、本人確認書類が2種類必要なことに注意してください。あと荷物はロッカーの中に入れることができますがロッカーがそんなに大きくなかったので深層学習本を持っていくのはやめた方がいいと思います。黒本は大丈夫です。

消せないホワイトボードとペン2本支給されますが、埋まったホワイトボードは新しいものと交換できます。交換なので、某数学問題の某大量計算問題などは必要計算スペースを考えて先に交換しておくなどの戦略が求められます。また見直しの時も手元に計算結果が残ってないということもありますので注意した方がいいと思います。

試験時間は大幅に余りました。65分で完答してわからなかった問題を消去法で簡単に埋めて、計算問題の検算をして、ポケモンGOをしに街に繰り出して行きました。落ちていたら笑ってください。

 

 

G検定について

G検定は取っておいてよかったと思います。時事ネタや法律系が多いのがネックですが、最低限の知識の骨子があったことで肉付けが簡単になったと思っています。学生の場合は特に受験料も安いのでE資格単独で受ける前にG検定で骨子を勉強してこの分野が自分に向いているかをチェックするのも悪くないと思います。10万円近く払ってこの分野おもんなってなっても辛いだけなので。

終わりに

資格試験は近年のDLの動向を比較的体系だって学べるのがいいところだと思います。界隈の常識って座学で学ぶの難しいですからね。

今回受験したのもそういう動機からで、決して安くない金額払いましたけど、勉強のモチベーションと講座をお金で買ったと思えばまあ悪くない選択だったかなと思います。

ところでこの資格、就活に使えますか?

単純な興味だけで取ったのでその辺の事情はよくわかりません。就活に使えそうなら教えてください。

最後になりますが、この辺がもう少し聞きたい、そこらへん本音はどうなの?みたいなのがありましたら回答可能範囲でお答えいたしますのでお気軽にコメントください。

ではみなさんのいい勉強ライフをお祈りしています。

 

 

 

 

 

E資格1週間前!

早いものでE資格1週間前になりました。ここからは気持ちを入れ替えて勉強していきたいと思います。

 

今までやったこと
・黒本2周
・ゼロつく1完遂
・映像授業2周
・模試を受けた(73%)

これからの予定
・Goodfellow本通読
・各種最新手法の復習
・例題を解く
・生活リズムの矯正
・直前暗記事項の整理

気持ちが乗ればブログに備忘録としてまとめたいですが、、

 

 

【G検定】物体検出モデル【E資格】

勉強していて流れがよくわからなくなってしまったので備忘録がてら。細かい解説は論文を読めばいいので多分書きません。

R-CNN(https://arxiv.org/abs/1311.2524)(Girshick et al. 2014)
Fast R-CNN(https://arxiv.org/abs/1504.08083)(Girshick et al.2015)
Faster R-CNN(https://arxiv.org/abs/1506.01497)(Ren et al. v1:2015)
YOLO(https://arxiv.org/pdf/1506.02640.pdf)(Redmon et al. 2016)
SSD(https://arxiv.org/abs/1512.02325)(Liu el al. 2016)

物体検出に必要なこと:

バウンディング(ボックス)回帰(どこにあるか)
②クラス分類(なにがあるか)

 

①R-CNN:
・選択的探索(似ている部分をまとめていく方法)により提案領域を切り出したあと、CNNを用いた畳み込み層による特徴抽出→SVMを用いたクラス分類、全結合層でのバウンディング回帰を行う。
⚪︎物体検出モデル界の始祖。
×選択的探索に時間がかかる。(→Faster R-CNN)
×切り出した候補領域ごとに畳み込みを行うのが時間がかかる。(→Fast R-CNN)

 

②Fast R-CNN:
・R-CNNでは選択的探索で得られた全ての領域に対して畳み込みを行なっていたが、画像全体を複数回畳み込むことで特徴マップを生成し、得られた特徴マップから各候補領域に該当する部分を特定する。畳み込み回数が減ったことで時間を短縮。
⚪︎R-CNNより精度向上、訓練時間(9倍)・テスト時間(213倍)を短縮。
×依然として物体領域候補の選択的探索に時間がかかる(全体時間の80%を占める)

 

③Faster R-CNN:
・Fast R-CNNで課題として残っていた選択的探索をやめ、提案領域の切り出しも畳み込んだ特徴マップから行う。時間がかかっていた選択的探索部分を短縮し、これにより実時間での物体検出が可能に。end-to-end(多段階の処理を一つのNNで行う)。
⚪︎選択的探索よりも精度向上、訓練時間・テスト時間を短縮
×切り出した後に識別をするためまだ改善の余地あり

 

④YOLO:
・画像中の物体を単一のNNで検出。グリッドに分割してグリッドごとにクラス推定とバウンディング回帰を同時に行う。end-to-end。
⚪︎はやい
×グリッドサイズに応じて精度が微妙、細かい物体は難しい

 

SSD:
・画像中の物体を単一のNNで検出。クラス推定とバウンディング回帰を同時に行う。いろいろなサイズの物体を自然に扱うために異なる解像度の複数の特徴マップを用いることが特徴。end-to-end。
⚪︎YOLOよりも高速、精度がいい。
⚪︎細かいものも適切な特徴マップを用いることで検出可能。

E資格講座修了しました!

新年明けましておめでとうございます。

冬休みを利用してE資格の勉強を進め、1月1日に無事E資格の認定講座を修了しました。

これで無事にE資格の受験資格を得たことになります。一からここまで勉強するのは大変難しく、また周りに詳しい人がいないという環境も相まって厳しい道のりでしたが何とかここまでこぎつけることができました。

・自分で実装を理解する

・精度向上の手法を理解する

・バグを発見して修正する

といったことは今までの人生でやってこなかったことで、大変苦労しました。

E資格に数ヶ月の勉強で合格しました!みたいな報告は多々ありますが、この資格は各人のバックグラウンドに応じて必要時間は大幅に変わってくると思うので一概に参考にしない方が良いということを身に沁みて実感しました。

線形代数

・確率統計

・非deepの機械学習

python,numpyの仕様

・論文を読む力

・G検定レベルの知識など

を考慮に入れて各人の必要勉強時間を計算した方が良いと思いました。

 

さて、これからはE資格本番に向けて勉強を継続していくわけですが、気がかりなのは感染拡大状況です。何とかして実施できるような情勢になってほしいですがやや厳しそうですね。

 

個人的には学生のうちに受験できるラストチャンスなので何とか受験しておきたいのですが、、

 

ともかく正式発表があるまでは勉強を継続していきたいと思います。良い報告ができるよう頑張ります。

G検定合格しました!

先日G検定の受験記録を書きました。

 

syleir.hatenablog.com

 

昨日結果が届きまして無事合格してました!

合格率は例年より低かったようですがそれでも60%近くあって失敗しないのが重要な試験というのは相変わらずなようですね。

 

何かの外部試験に合格したのはそれこそ大学入試以来な気がするので素直に嬉しいです。

大したことのない試験でも自分の学習の結果が可視化されるのは気分がいいですね。

 

大人になるにつれて“先生”が減っていく中で自分で学習を継続するには低くても良いのでたくさん目標を立てて少しずつ実行していく、達成できたら自分を褒めるというのが結果的にたくさん進捗を産めるような気がしています。

 

次はE資格が2月にあるのでまずは受験資格を得られるように頑張って行きたいです。

そのあとは統計検定準1級を計画しています。

息長く進捗を報告していきたいと思いますのでお付き合いよろしくお願いします。

 

 

 

G検定受験しました!

今週G検定(JDLA  AI ジェネラリスト検定 2020 #3)を受けてきました。

勉強時間は2週間ほどでしたが結局これ以上増やしても変わらなかったかなというのが正直な感想です。

深層学習教科書 ディープラーニング G検定(ジェネラリスト) 公式テキスト

徹底攻略 ディープラーニングG検定 ジェネラリスト 問題集 徹底攻略シリーズ

最短突破 ディープラーニングG検定(ジェネラリスト) 問題集

勉強には上記3冊を使いましたが、どの本で勉強するというよりはこの試験は受験戦略が重要だというように感じました。

G検定の勉強のコツは「見たことある問題で悩まないようにする」という1点につきます。

新しい論文や最新の法規からも出題されるため見たことない問題への対策は不可能(だし可能だとしてもコスパ上やるべきではない)なので既知の問題を増やし、早く解けるようにするというのが重要です。

また本番での注意点としては30秒以内での検索、回答ができるか?を意識しながら回答できそうなものから解いていく、時間かかりそうなものはスルーするというのが本番の大失敗を避けるのに重要かなと思います。

合格率が低い試験ではないので「大失敗を避ける」というのが最重要です。本試験における大失敗は「時間が足りなくなって終了」であり、これを避けるのが重要な戦略になります。得点期待値が「覚えている」>「検索できる」>「当てずっぽう」>「未解答」であり、未解答のまま終わるよりは当てずっぽうで解答する、当てずっぽうで解答するよりは検索で対応する、というのが得点期待値を最高に高め、これを行うのに必要なのが早く検索できる問題を見極めるという戦略になります。

実際の本番は開始1時間で75%ほど30秒以内で解ける問題を解答し、ラスト1時間で時間のかかる問題を解答しました。詳細については守秘義務上乗せられないのですが、得点75%も取れば合格できると思われる以上、30秒以内に解答できる問題のみで合格水準に達すると考えられます。

今後受験される方の参考になれば幸いです。