次元数 (dimensionality)

定義 (Definition)

このような場合、すべてのデータ例が同じ数の数値特徴量によって特徴付けられるとき、入力は固定長のベクトルであると言い、そのベクトルの(一定の)長さをデータの次元数(dimensionality)と呼ぶ。ご想像の通り、固定長の入力は便利であり、悩むべき複雑さを一つ減らしてくれる。しかし、すべてのデータを固定長ベクトルの形で簡単に表現できるわけではない。顕微鏡画像は標準的な機器から得られることを期待できるが、インターネットからマイニングした画像すべてが同じ解像度や形状を持っているとは期待できない。画像については、標準サイズへの切り抜きを検討するかもしれないが、その戦略には限界がある。切り抜かれた部分の情報を失うリスクがあるからだ。さらに、テキストデータは、固定長表現に対してより頑強に抵抗する。Amazon、IMDb、TripAdvisorなどのEコマースサイトに残されたカスタマーレビューを考えてみよう。「ひどい!」という短文のものもあれば、何ページにもわたって長々と書かれているものもある。従来の手法と比較したディープラーニングの大きな利点の一つは、現代のモデルが可変長のデータを比較的優雅に処理できることである。

参照 (Reference)

この用語の詳細な文脈については Dive into Deep Learning の対応する章を参照してください: - 元章で読む