1日1分 E資格問題 No.21「SSD」

E資格問題

E資格問題にチャレンジ!本日のお題は「SSD」

問題

[問題]
以下のうち、SSD(Single Shot Multibox Detector)について誤っているものはどれか。

(A) 複数のスケールの特徴マップから同時に物体を検出するため、異なるサイズやアスペクト比の物体を効果的に検出することができる。
(B) 各特徴マップに畳み込みフィルタを適用して、特徴マップの各位置について、バウンディングボックスの位置・サイズとクラス分類を予測する。
(C) 多くのバウンディングボックスは、負に判定されるため、負と正の比率が、最大でも3:1になるように、誤差関数の値が小さいのものを選択する。
(D) 非最大値抑制(NMS)と呼ばれる手法が適用され、重なりの高い複数の検出結果を削除し、最も信頼性の高い検出結果のみを残す。

答え

 

 

 

C

解説

SSD(Single Shot MultiBox Detector)は、物体検出のためのディープラーニングモデルの一種であり、高速で高精度な物体検出を実現するために開発されました。

SSDは、畳み込みニューラルネットワーク(CNN)を基にしています。通常、SSDは予め学習されたCNNモデル(論文ではVGG)の上に構築されます。SSDは、複数のスケール(異なる解像度)の特徴マップから同時に物体を検出します。これにより、異なるサイズやアスペクト比の物体を効果的に検出することができます。したがって、(A)は正しい記述です。

structure of SSD

SSD: Single Shot MultiBox Detectorより引用

各特徴マップの位置に対して、アンカーボックスが生成されます。アンカーボックスは、異なるアスペクト比の事前定義されたボックスです。下図は(a)が入力画像と各物体の正解ボックス、(b)と(c)のマス目は各特徴マップの位置を表しています。(b)と(c)を見ると4×4の特徴マップの方がアンカーボックスが大きく、各特徴マップではアンカーボックスの大きさが異なることがわかります。このようにSSDでは、サイズの違う畳み込み層をベースネットワークの後に追加することで様々なスケールで物体を検出することができます。

SSD framework

SSD: Single Shot MultiBox Detectorより引用

各特徴マップに3×3の畳み込みフィルタを適用して、特徴マップの各位置について、ローカリゼーション(バウンディングボックスの位置とサイズ)とクラス分類(物体のカテゴリ)を予測します。したがって、(B)は正しい記述です。

バウンディングボックスと実際の物体の位置との重なり(IoU)を計算し、一定の閾値を超えるバウンディングボックスを抽出します。尚、有効なバウンディングボックスの数が多い場合、多くのバウンディングボックスは、負 [negative] に判定され、正と負の訓練データの比率が不均衡になってしまいます。この問題に対する対策として、負に判定される全訓練データを使用する代わりに、これらの(訓練データとしての) バウンディングボックスに対しての誤差関数が高い順(降順)にソートし、負と正の比率が、最大でも3:1になるように、誤差関数の値が上位のもののみを選択します。これにより、より速くモデルが最適化され、又、安定した学習に繋がります。したがって、(C)は誤った記述です。

抽出されたバウンディングボックスに対して、各クラスのスコアの誤差と、バウンディングボックスの位置誤差との合成関数から正解データとの誤差を計算します。この計算結果を元に誤差逆伝播法によりモデルの重みを更新します。クラス予測は、各アンカーボックスが属する物体クラスの確率を表します。位置の修正は、バウンディングボックスと実際の物体の位置との差分を学習し、より正確なバウンディングボックスを予測します。

また、非最大値抑制(NMS)と呼ばれる手法が適用され、重なりの高い複数の検出結果を削除し、最も信頼性の高い検出結果のみを残します。したがって、(D)は正しい記述です。

SSDの主な特徴は次のとおりです:

  1. リアルタイム処理: SSDは高速な処理を実現し、リアルタイムの物体検出に適しています。高い計算効率と並列処理の利点を活かし、リアルタイム速度で複数の物体を検出できます。
  2. 多種多様な物体検出: SSDは、複数のスケールの特徴マップを使用することにより、さまざまなサイズや形状の物体を検出することができます。これにより、小さな物体や遠くの物体など、さまざまな条件下での物体検出を高精度に行うことが可能です。
  3. 物体の位置とクラスの同時検出: SSDは、物体の位置(バウンディングボックス)と物体クラス(例:人、自転車、車など)の同時検出を行います。これにより、画像やビデオ内の複数の物体を同時に識別し、分類することができます。

より詳細に学びたいならキカガクの「AI人材育成長期コース」がオススメ!まずは無料相談から。

コメント

タイトルとURLをコピーしました