.. _sec_glossary_vit: vision Transformers (ViT) ========================= 定義 (Definition) ----------------- パッチサイズに特別な制約を設けずに、 *vision Transformers*\ (ViT)は 画像からパッチを抽出し、 それらをTransformerエンコーダに入力して グローバルな表現を得る。 そして最終的に、その表現を分類用に変換する :cite:`Dosovitskiy.Beyer.Kolesnikov.ea.2021`\ 。 特筆すべきは、TransformerはCNNよりもスケーラビリティに優れていることである。 より大きなデータセットでより大規模なモデルを学習すると、 vision TransformerはResNetを大きく上回る。 自然言語処理におけるネットワークアーキテクチャ設計の潮流と同様に、 Transformerはコンピュータビジョンにおいてもゲームチェンジャーとなった。 参照 (Reference) ---------------- この用語の詳細な文脈については Dive into Deep Learning の対応する章を参照してください: - `元章で読む <../chapter_attention-mechanisms-and-transformers/vision-transformer.md>`__