.. _sec_transformer: Transformerアーキテクチャ ========================= :numref:`subsec_cnn-rnn-self-attention` では、CNN、RNN、自己注意を比較した。特に、自己注意は並列計算と最短の最大経路長の両方を備えている。したがって、自己注意を用いて深いアーキテクチャを設計するのは魅力的である。入力表現に対してなおRNNに依存していた以前の自己注意モデル :cite:`Cheng.Dong.Lapata.2016,Lin.Feng.Santos.ea.2017,Paulus.Xiong.Socher.2017` とは異なり、 Transformerモデルは畳み込み層も再帰層も使わず、注意機構のみに基づいている :cite:`Vaswani.Shazeer.Parmar.ea.2017`\ 。もともとはテキストデータに対する系列変換学習のために提案されたが、 Transformerは言語、視覚、音声、強化学習など、現代の深層学習の幅広い応用分野で広く使われるようになっている。 .. raw:: html

.. raw:: html

.. raw:: latex \diilbookstyleinputcell .. code:: python from d2l import torch as d2l import math import pandas as pd import torch from torch import nn .. raw:: html

.. raw:: html

.. raw:: latex \diilbookstyleinputcell .. code:: python from d2l import mxnet as d2l import math from mxnet import autograd, init, np, npx from mxnet.gluon import nn import pandas as pd npx.set_np() .. raw:: html

.. raw:: html

.. raw:: latex \diilbookstyleinputcell .. code:: python from d2l import jax as d2l from flax import linen as nn from jax import numpy as jnp import jax import math import pandas as pd .. raw:: html

.. raw:: html

.. raw:: latex \diilbookstyleinputcell .. code:: python from d2l import tensorflow as d2l import numpy as np import pandas as pd import tensorflow as tf .. raw:: html

.. raw:: html

モデル ------ エンコーダ–デコーダアーキテクチャの一例として、 Transformerの全体アーキテクチャを :numref:`fig_transformer` に示す。見てわかるように、 Transformerはエンコーダとデコーダから構成される。 :numref:`fig_s2s_attention_details` の Bahdanau注意による系列変換学習とは対照的に、入力（source）系列と出力（target）系列の埋め込みには、自己注意に基づくモジュールを積み重ねたエンコーダとデコーダに入力する前に、位置エンコーディングが加えられる。 .. _fig_transformer: .. figure:: ../img/transformer.svg :width: 320px The Transformer architecture. ここで、 :numref:`fig_transformer` における Transformerアーキテクチャの概要を説明する。高レベルでは、 Transformerエンコーダは複数の同一層のスタックであり、各層は2つのサブレイヤー（いずれも :math:`\textrm{sublayer}` と表記）を持つ。 1つ目はマルチヘッド自己注意プーリングであり、 2つ目は位置ごとのフィードフォワードネットワークである。具体的には、エンコーダの自己注意では、クエリ、キー、値はすべて前のエンコーダ層の出力から得られる。 :numref:`sec_resnet` のResNet設計に着想を得て、両方のサブレイヤーの周囲に残差接続が用いられる。 Transformerでは、系列の任意の位置にある任意の入力 :math:`\mathbf{x} \in \mathbb{R}^d` に対して、残差接続 :math:`\mathbf{x} + \textrm{sublayer}(\mathbf{x}) \in \mathbb{R}^d` が可能であるように、 :math:`\textrm{sublayer}(\mathbf{x}) \in \mathbb{R}^d` を要求する。この残差接続による加算の直後に層正規化が続く :cite:`Ba.Kiros.Hinton.2016`\ 。その結果、Transformerエンコーダは入力系列の各位置に対して :math:`d` 次元のベクトル表現を出力する。 Transformerデコーダもまた、残差接続と層正規化を備えた複数の同一層のスタックである。エンコーダで説明した2つのサブレイヤーに加えて、デコーダはその間にエンコーダ–デコーダ注意と呼ばれる 3つ目のサブレイヤーを挿入する。エンコーダ–デコーダ注意では、クエリはデコーダの自己注意サブレイヤーの出力から得られ、キーと値は Transformerエンコーダの出力から得られる。デコーダの自己注意では、クエリ、キー、値はすべて前のデコーダ層の出力から得られる。ただし、デコーダの各位置はその位置までのデコーダ内のすべての位置にのみ注意を向けることが許される。この\ *マスク付き*\ 注意は自己回帰性を保ち、予測が生成済みの出力トークンのみに依存することを保証する。すでに :numref:`sec_multihead-attention` でスケールド・ドット積に基づくマルチヘッド注意と、 :numref:`subsec_positional-encoding` で位置エンコーディングを説明し実装した。以下では、 Transformerモデルの残りの部分を実装する。 .. _subsec_positionwise-ffn: 位置ごとのフィードフォワードネットワーク ---------------------------------------- 位置ごとのフィードフォワードネットワークは、同じMLPを用いてすべての系列位置の表現を変換する。このため、これを\ *位置ごと*\ と呼ぶ。以下の実装では、形状が（バッチサイズ、時間ステップ数またはトークン単位の系列長、隠れユニット数または特徴次元）である入力 ``X`` は、 2層MLPによって形状が（バッチサイズ、時間ステップ数、\ ``ffn_num_outputs``\ ）の出力テンソルへ変換される。 .. raw:: html