Vision Transformer（ViT）¶

定義 (Definition)¶

パッチサイズに特別な制約を設けずに、 vision Transformers（ViT）は画像からパッチを抽出し、それらをTransformerエンコーダに入力してグローバルな表現を得る。そして最終的に、その表現を分類用に変換する (Dosovitskiy et al., 2021)。特筆すべきは、TransformerはCNNよりもスケーラビリティに優れていることである。より大きなデータセットでより大規模なモデルを学習すると、 vision TransformerはResNetを大きく上回る。自然言語処理におけるネットワークアーキテクチャ設計の潮流と同様に、 Transformerはコンピュータビジョンにおいてもゲームチェンジャーとなった。

参照 (Reference)¶

この用語の詳細な文脈については Dive into Deep Learning の対応する章を参照してほしい: - 元章で読む