Syleir’s note

2020.4.1より統計検定やE資格の勉強の進捗を報告しています。統計検定準1級、E資格、G検定取得しました!当ブログへのリンクはご自由にどうぞ。

MENU

【G検定】物体検出モデル【E資格】

勉強していて流れがよくわからなくなってしまったので備忘録がてら。細かい解説は論文を読めばいいので多分書きません。

R-CNN(https://arxiv.org/abs/1311.2524)(Girshick et al. 2014)
Fast R-CNN(https://arxiv.org/abs/1504.08083)(Girshick et al.2015)
Faster R-CNN(https://arxiv.org/abs/1506.01497)(Ren et al. v1:2015)
YOLO(https://arxiv.org/pdf/1506.02640.pdf)(Redmon et al. 2016)
SSD(https://arxiv.org/abs/1512.02325)(Liu el al. 2016)

物体検出に必要なこと:

バウンディング(ボックス)回帰(どこにあるか)
②クラス分類(なにがあるか)

 

①R-CNN:
・選択的探索(似ている部分をまとめていく方法)により提案領域を切り出したあと、CNNを用いた畳み込み層による特徴抽出→SVMを用いたクラス分類、全結合層でのバウンディング回帰を行う。
⚪︎物体検出モデル界の始祖。
×選択的探索に時間がかかる。(→Faster R-CNN)
×切り出した候補領域ごとに畳み込みを行うのが時間がかかる。(→Fast R-CNN)

 

②Fast R-CNN:
・R-CNNでは選択的探索で得られた全ての領域に対して畳み込みを行なっていたが、画像全体を複数回畳み込むことで特徴マップを生成し、得られた特徴マップから各候補領域に該当する部分を特定する。畳み込み回数が減ったことで時間を短縮。
⚪︎R-CNNより精度向上、訓練時間(9倍)・テスト時間(213倍)を短縮。
×依然として物体領域候補の選択的探索に時間がかかる(全体時間の80%を占める)

 

③Faster R-CNN:
・Fast R-CNNで課題として残っていた選択的探索をやめ、提案領域の切り出しも畳み込んだ特徴マップから行う。時間がかかっていた選択的探索部分を短縮し、これにより実時間での物体検出が可能に。end-to-end(多段階の処理を一つのNNで行う)。
⚪︎選択的探索よりも精度向上、訓練時間・テスト時間を短縮
×切り出した後に識別をするためまだ改善の余地あり

 

④YOLO:
・画像中の物体を単一のNNで検出。グリッドに分割してグリッドごとにクラス推定とバウンディング回帰を同時に行う。end-to-end。
⚪︎はやい
×グリッドサイズに応じて精度が微妙、細かい物体は難しい

 

SSD:
・画像中の物体を単一のNNで検出。クラス推定とバウンディング回帰を同時に行う。いろいろなサイズの物体を自然に扱うために異なる解像度の複数の特徴マップを用いることが特徴。end-to-end。
⚪︎YOLOよりも高速、精度がいい。
⚪︎細かいものも適切な特徴マップを用いることで検出可能。