14. コンピュータビジョン(Computer Vision)とは:深層学習による画像解析¶
コンピュータビジョン(Computer Vision)とは、コンピュータが画像や動画を人間のように理解・解析するための技術分野であり、深層学習(ディープラーニング)の進化によって、顔認識、物体検出、自動運転など、多様な社会実装が急速に進んでいる。
医療診断、自動運転車、カメラ監視、スマートフィルターなど、コンピュータビジョン分野の多くの応用は、私たちの現在および将来の生活と密接に関係している。
近年、深層学習はコンピュータビジョンシステムの性能向上をもたらす変革的な力となってきた。
最先端のコンピュータビジョン応用のほとんどは、深層学習と切り離せないと言ってよいだろう。
このことを踏まえ、本章ではコンピュータビジョン分野に焦点を当て、学術界および産業界で近年影響力のあった手法と応用を調べる。
本章の冒頭では、
モデルの汎化性能を改善する可能性のある2つの手法、すなわち 画像拡張
と ファインチューニング を説明し、 それらを画像分類に適用する。
深層ニューラルネットワークは画像を複数のレベルで効果的に表現できるため、
このような層ごとの表現は
物体検出、意味的セグメンテーション、スタイル変換 などの
さまざまなコンピュータビジョンタスクで成功裏に 利用されてきた。
コンピュータビジョンにおける層ごとの表現を活用するという重要な考え方に従い、
まず物体検出の主要な構成要素と技法から始める。次に、画像の意味的セグメンテーションに
全畳み込みネットワーク
をどのように用いるかを示す。その後、この本の表紙のような画像を生成するためにスタイル変換技法をどのように使うかを説明する。
最後に、本章の内容とこれまでのいくつかの章の材料を、2つの人気のあるコンピュータビジョンベンチマークデータセットに適用することで、
本章を締めくくる。
- 14.1. 画像拡張
- 14.2. ファインチューニング(Fine-tuning)とは:転移学習の実践
- 14.3. 物体検出とバウンディングボックス
- 14.4. アンカーボックスとは
- 14.5. マルチスケール物体検出
- 14.6. 物体検出データセット
- 14.7. SSD(Single Shot MultiBox Detector)とは:物体検出の基礎
- 14.8. 領域ベースのCNN(R-CNN)
- 14.9. セマンティックセグメンテーションとデータセット
- 14.10. 転置畳み込み
- 14.11. FCN(完全畳み込みネットワーク)とは:セマンティックセグメンテーション
- 14.12. ニューラル・スタイル変換
- 14.13. Kaggle における画像分類(CIFAR-10)
- 14.14. Kaggle における犬種識別(ImageNet Dogs)