21.10. Deep Factorization Machines

効果的な特徴の組み合わせを学習することは、クリック率予測タスクの成功にとって極めて重要である。Factorization Machines は、特徴間相互作用を線形の枠組み(たとえば双線形相互作用)でモデル化する。しかし、実世界のデータでは、特徴の交差構造は通常きわめて複雑で非線形であるため、これだけでは不十分なことが多い。さらに悪いことに、実際には通常、2次の特徴相互作用しか factorization machines では用いられない。より高次の特徴の組み合わせを factorization machines でモデル化することは理論上は可能だが、数値的不安定性と高い計算複雑性のため、一般には採用されない。

有効な解決策の一つは、深層ニューラルネットワークを用いることである。深層ニューラルネットワークは特徴表現学習に強力であり、洗練された特徴相互作用を学習できる可能性がある。そのため、深層ニューラルネットワークを factorization machines に統合するのは自然な発想である。factorization machines に非線形変換層を追加すると、低次の特徴の組み合わせと高次の特徴の組み合わせの両方をモデル化できるようになる。さらに、入力に由来する非線形な内在構造も深層ニューラルネットワークで捉えることができる。この節では、FM と深層ニューラルネットワークを組み合わせた代表的なモデルである deep factorization machines (DeepFM) (Guo et al., 2017) を紹介する。

21.10.1. Model Architectures

DeepFM は、FM コンポーネントと deep コンポーネントからなり、これらは並列構造で統合されている。FM コンポーネントは 2-way factorization machines と同じで、低次の特徴相互作用をモデル化するために使われる。deep コンポーネントは MLP であり、高次の特徴相互作用と非線形性を捉えるために使われる。これら 2 つのコンポーネントは同じ入力/埋め込みを共有し、その出力が最終予測として加算される。DeepFM の考え方は、記憶と汎化の両方を捉えられる Wide & Deep アーキテクチャに似ていることに注意するとよいだろう。Wide & Deep モデルに対する DeepFM の利点は、特徴の組み合わせを自動的に識別することで、手作業による特徴設計の労力を減らせる点である。

簡潔さのため、FM コンポーネントの説明は省略し、その出力を \(\hat{y}^{(FM)}\) と表す。詳細は前節を参照しよ。\(\mathbf{e}_i \in \mathbb{R}^{k}\)\(i^\textrm{th}\) フィールドの潜在特徴ベクトルとする。deep コンポーネントの入力は、疎なカテゴリ特徴入力に対してルックアップされたすべてのフィールドの密な埋め込みを連結したもので、次のように表される。

(21.10.1)\[\mathbf{z}^{(0)} = [\mathbf{e}_1, \mathbf{e}_2, ..., \mathbf{e}_f],\]

ここで \(f\) はフィールド数である。これを次のニューラルネットワークに入力する。

(21.10.2)\[\mathbf{z}^{(l)} = \alpha(\mathbf{W}^{(l)}\mathbf{z}^{(l-1)} + \mathbf{b}^{(l)}),\]

ここで \(\alpha\) は活性化関数である。\(\mathbf{W}_{l}\)\(\mathbf{b}_{l}\)\(l^\textrm{th}\) 層の重みとバイアスである。\(y_{DNN}\) を予測出力とする。DeepFM の最終予測は、FM と DNN の両方の出力の和である。したがって、次式を得る。

(21.10.3)\[\hat{y} = \sigma(\hat{y}^{(FM)} + \hat{y}^{(DNN)}),\]

ここで \(\sigma\) はシグモイド関数である。DeepFM のアーキテクチャを以下に示す。 Illustration of the DeepFM model

DeepFM は、深層ニューラルネットワークと FM を組み合わせる唯一の方法ではないことに注意しよ。特徴相互作用の上に非線形層を追加することもできる (He and Chua, 2017)

import os
from mxnet import gluon, init, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

21.10.2. Implementation of DeepFM

DeepFM の実装は FM のそれと似ている。FM 部分はそのままにし、活性化関数として relu を用いた MLP ブロックを使う。モデルの正則化のために Dropout も用いる。MLP のニューロン数は mlp_dims ハイパーパラメータで調整できる。

class DeepFM(nn.Block):
    def __init__(self, field_dims, num_factors, mlp_dims, drop_rate=0.1):
        super(DeepFM, self).__init__()
        num_inputs = int(sum(field_dims))
        self.embedding = nn.Embedding(num_inputs, num_factors)
        self.fc = nn.Embedding(num_inputs, 1)
        self.linear_layer = nn.Dense(1, use_bias=True)
        input_dim = self.embed_output_dim = len(field_dims) * num_factors
        self.mlp = nn.Sequential()
        for dim in mlp_dims:
            self.mlp.add(nn.Dense(dim, 'relu', True, in_units=input_dim))
            self.mlp.add(nn.Dropout(rate=drop_rate))
            input_dim = dim
        self.mlp.add(nn.Dense(in_units=input_dim, units=1))

    def forward(self, x):
        embed_x = self.embedding(x)
        square_of_sum = np.sum(embed_x, axis=1) ** 2
        sum_of_square = np.sum(embed_x ** 2, axis=1)
        inputs = np.reshape(embed_x, (-1, self.embed_output_dim))
        x = self.linear_layer(self.fc(x).sum(1)) \
            + 0.5 * (square_of_sum - sum_of_square).sum(1, keepdims=True) \
            + self.mlp(inputs)
        x = npx.sigmoid(x)
        return x

21.10.3. Training and Evaluating the Model

データ読み込みの手順は FM と同じである。DeepFM の MLP コンポーネントは、ピラミッド構造(30-20-10)を持つ 3 層の全結合ネットワークに設定する。その他のハイパーパラメータは FM と同じである。

batch_size = 2048
data_dir = d2l.download_extract('ctr')
train_data = d2l.CTRDataset(os.path.join(data_dir, 'train.csv'))
test_data = d2l.CTRDataset(os.path.join(data_dir, 'test.csv'),
                           feat_mapper=train_data.feat_mapper,
                           defaults=train_data.defaults)
field_dims = train_data.field_dims
train_iter = gluon.data.DataLoader(
    train_data, shuffle=True, last_batch='rollover', batch_size=batch_size,
    num_workers=d2l.get_dataloader_workers())
test_iter = gluon.data.DataLoader(
    test_data, shuffle=False, last_batch='rollover', batch_size=batch_size,
    num_workers=d2l.get_dataloader_workers())
devices = d2l.try_all_gpus()
net = DeepFM(field_dims, num_factors=10, mlp_dims=[30, 20, 10])
net.initialize(init.Xavier(), ctx=devices)
lr, num_epochs, optimizer = 0.01, 30, 'adam'
trainer = gluon.Trainer(net.collect_params(), optimizer,
                        {'learning_rate': lr})
loss = gluon.loss.SigmoidBinaryCrossEntropyLoss()
d2l.train_ch13(net, train_iter, test_iter, loss, trainer, num_epochs, devices)
loss 0.509, train acc 0.437, test acc 0.444
42903.5 examples/sec on [gpu(0), gpu(1)]
../_images/output_deepfm_87e486_5_1.svg

FM と比べると、DeepFM はより速く収束し、より良い性能を達成する。

21.10.4. Summary

  • FM にニューラルネットワークを統合することで、複雑で高次の相互作用をモデル化できるようになる。

  • DeepFM は広告データセットにおいて、元の FM を上回る性能を示す。

21.10.5. Exercises

  • MLP の構造を変えて、モデル性能への影響を確認しよ。

  • データセットを Criteo に変更し、元の FM モデルと比較しよ。

Discussions