14.7. SSD（Single Shot MultiBox Detector）とは：物体検出の基礎¶

SSD（Single Shot MultiBox Detector）とは、画像を1回スキャンするだけで複数の物体の位置（バウンディングボックス）とクラスを同時に予測する、高速かつ高精度なリアルタイム物体検出アルゴリズムである。

14.3 章– sec_object-detection-dataset では、バウンディングボックス、アンカーボックス、マルチスケール物体検出、そして物体検出用データセットを紹介した。ここでは、こうした背景知識を用いて物体検出モデルであるシングルショット・マルチボックス検出（SSD） (Liu et al., 2016) を設計する準備が整った。このモデルはシンプルで高速であり、広く使われている。数多くある物体検出モデルのうちの一つにすぎないが、この節で扱う設計原理や実装の詳細の一部は、他のモデルにも適用できる。

14.7.1. モデル¶

図 14.7.1 はシングルショット・マルチボックス検出の設計概要を示している。このモデルは主にベースネットワークと、それに続くいくつかのマルチスケール特徴マップブロックから構成される。ベースネットワークは入力画像から特徴を抽出するためのもので、深いCNNを使うことができる。たとえば、元のシングルショット・マルチボックス検出の論文では、分類層の手前で切り詰めたVGGネットワークを採用しており (Liu et al., 2016)、 ResNetも一般的に使われている。この設計により、ベースネットワークの出力する特徴マップをより大きくして、より多くのアンカーボックスを生成し、より小さな物体を検出できるようにする。その後、各マルチスケール特徴マップブロックは前のブロックからの特徴マップの高さと幅を（たとえば半分に）縮小し、特徴マップの各ユニットが入力画像上で持つ受容野を拡大できるようにする。

14.5 章で深層ニューラルネットワークによる画像の層ごとの表現を通じたマルチスケール物体検出の設計を思い出そう。図 14.7.1 の上部に近いマルチスケール特徴マップほど小さいが、受容野は大きいため、数は少ないがより大きな物体の検出に適している。

要するに、ベースネットワークといくつかのマルチスケール特徴マップブロックを通じて、シングルショット・マルチボックス検出は異なるサイズを持つさまざまな数のアンカーボックスを生成し、これらのアンカーボックス（したがってバウンディングボックス）のクラスとオフセットを予測することでさまざまなサイズの物体を検出す。したがって、マルチスケール物体検出モデルである。

../_images/ssd.svg — 図 14.7.1 マルチスケール物体検出モデルとして、シングルショット・マルチボックス検出は主にベースネットワークと、それに続くいくつかのマルチスケール特徴マップブロックから構成される。¶

以下では、図 14.7.1 における異なるブロックの実装詳細を説明する。まず、クラス予測とバウンディングボックス予測をどのように実装するかを議論する。

14.7.1.1. クラス予測層¶

物体クラス数を \(q\) とする。するとアンカーボックスは \(q+1\) 個のクラスを持ち、クラス0は背景である。あるスケールで、特徴マップの高さと幅がそれぞれ \(h\) と \(w\) であるとする。これらの特徴マップの各空間位置を中心として \(a\) 個のアンカーボックスが生成されるとき、合計 \(hwa\) 個のアンカーボックスを分類する必要がある。これは、パラメータ数が非常に多くなりがちなため、全結合層による分類を非現実的にする。 8.3 章で畳み込み層のチャネルを使ってクラスを予測した方法を思い出そう。シングルショット・マルチボックス検出はモデルの複雑さを下げるために同じ手法を使う。

具体的には、クラス予測層は特徴マップの幅と高さを変えずに畳み込み層を使う。このようにして、特徴マップの同じ空間次元（幅と高さ）において出力と入力の間に 1対1の対応を持たせることができる。より具体的には、任意の空間位置 (\(x\), \(y\)) における出力特徴マップのチャネルは、入力特徴マップの (\(x\), \(y\)) を中心とするすべてのアンカーボックスに対するクラス予測を表す。有効な予測を得るには、 \(a(q+1)\) 個の出力チャネルが必要である。ここで、同じ空間位置に対してインデックス \(i(q+1) + j\) の出力チャネルは、アンカーボックス \(i\) (\(0 \leq i < a\)) に対するクラス \(j\) (\(0 \leq j \leq q\)) の予測を表す。

以下では、このようなクラス予測層を定義する。引数 num_anchors と num_classes により、それぞれ \(a\) と \(q\) を指定する。この層は、パディング1の \(3\times3\) 畳み込み層を使う。この畳み込み層の入力と出力の幅と高さは変わらない。

pytorch mxnet jax tensorflow

%matplotlib inline
from d2l import torch as d2l
import torch
import torchvision
from torch import nn
from torch.nn import functional as F

def cls_predictor(num_inputs, num_anchors, num_classes):
    return nn.Conv2d(num_inputs, num_anchors * (num_classes + 1),
                     kernel_size=3, padding=1)

%matplotlib inline
from d2l import mxnet as d2l
from mxnet import autograd, gluon, image, init, np, npx
from mxnet.gluon import nn

npx.set_np()

def cls_predictor(num_anchors, num_classes):
    return nn.Conv2D(num_anchors * (num_classes + 1), kernel_size=3,
                     padding=1)

concat_preds([Y1, Y2]).shape

concat_preds([Y1, Y2]).shape

14.7.1.2. バウンディングボックス予測層¶

バウンディングボックス予測層の設計は、クラス予測層と似ている。唯一の違いは、各アンカーボックスに対する出力数である。ここでは \(q+1\) 個のクラスではなく、4つのオフセットを予測する必要がある。

pytorch mxnet jax tensorflow

def bbox_predictor(num_inputs, num_anchors):
    return nn.Conv2d(num_inputs, num_anchors * 4, kernel_size=3, padding=1)

def bbox_predictor(num_anchors):
    return nn.Conv2D(num_anchors * 4, kernel_size=3, padding=1)

sizes = [[0.2, 0.272], [0.37, 0.447], [0.54, 0.619], [0.71, 0.79],
         [0.88, 0.961]]
ratios = [[1, 2, 0.5]] * 5
num_anchors = len(sizes[0]) + len(ratios[0]) - 1

sizes = [[0.2, 0.272], [0.37, 0.447], [0.54, 0.619], [0.71, 0.79],
         [0.88, 0.961]]
ratios = [[1, 2, 0.5]] * 5
num_anchors = len(sizes[0]) + len(ratios[0]) - 1

14.7.1.3. 複数スケールの予測を連結する¶

前述したように、シングルショット・マルチボックス検出はマルチスケール特徴マップを使ってアンカーボックスを生成し、そのクラスとオフセットを予測する。異なるスケールでは、特徴マップの形状や同じユニットを中心とするアンカーボックスの数が異なる場合がある。したがって、異なるスケールでの予測出力の形状も異なりえる。

以下の例では、同じミニバッチに対して 2つの異なるスケールの特徴マップ Y1 と Y2 を構成する。ここで Y2 の高さと幅は Y1 の半分である。クラス予測を例に取りよう。 Y1 と Y2 の各ユニットに対してそれぞれ5個と3個のアンカーボックスが生成されるとする。さらに、物体クラス数が10であるとする。特徴マップ Y1 と Y2 に対するクラス予測出力のチャネル数はそれぞれ \(5\times(10+1)=55\) と \(3\times(10+1)=33\) であり、いずれの出力形状も（バッチサイズ，チャネル数，高さ，幅）である。

pytorch mxnet jax tensorflow

def forward(x, block):
    return block(x)

Y1 = forward(torch.zeros((2, 8, 20, 20)), cls_predictor(8, 5, 10))
Y2 = forward(torch.zeros((2, 16, 10, 10)), cls_predictor(16, 3, 10))
Y1.shape, Y2.shape

(torch.Size([2, 55, 20, 20]), torch.Size([2, 33, 10, 10]))

def forward(x, block):
    block.initialize()
    return block(x)

Y1 = forward(np.zeros((2, 8, 20, 20)), cls_predictor(5, 10))
Y2 = forward(np.zeros((2, 16, 10, 10)), cls_predictor(3, 10))
Y1.shape, Y2.shape

[07:56:14] ../src/storage/storage.cc:196: Using Pooled (Naive) StorageManager for CPU

((2, 55, 20, 20), (2, 33, 10, 10))

batch_size = 32
train_iter, _ = d2l.load_data_bananas(batch_size)

batch_size = 32
train_iter, _ = d2l.load_data_bananas(batch_size)

見てのとおり、バッチサイズの次元を除けば、他の3つの次元はすべて異なるサイズを持っている。これら2つの予測出力をより効率的に計算するために連結するには、これらのテンソルをより一貫した形式に変換する。

チャネル次元には、同じ中心を持つアンカーボックスに対する予測が格納されていることに注意しよう。まずこの次元を最内側に移する。バッチサイズは異なるスケールでも同じなので、予測出力を（バッチサイズ，高さ \(\times\) 幅 \(\times\) チャネル数）という形状の2次元テンソルに変換できる。その後、異なるスケールのこのような出力を次元1に沿って連結できる。

14.7. SSD（Single Shot MultiBox Detector）とは：物体検出の基礎¶

14.7.1. モデル¶

14.7.1.1. クラス予測層¶

14.7.1.2. バウンディングボックス予測層¶

14.7.1.3. 複数スケールの予測を連結する¶

14.7.1.4. ダウンサンプリングブロック¶

14.7.1.5. ベースネットワークブロック¶

14.7.1.6. 完全なモデル¶

14.7.2. 学習¶

14.7.2.1. データセットの読み込みとモデルの初期化¶

14.7.2.2. 損失関数と評価関数の定義¶

14.7.2.3. モデルの学習¶

14.7.3. 予測¶

14.7.4. まとめ¶

14.7.5. 演習¶