過学習 (overfitting)¶
定義 (Definition)¶
最適化の最中、私たちは損失をモデルのパラメータの関数と考え、訓練データセットを定数として扱う。訓練のために収集されたいくつかのデータ例からなる集合上で生じる損失を最小化することで、私たちのモデルのパラメータの最適な値を学習する。しかし、訓練データでうまく機能しても、未知のデータでうまく機能するとは限らない。そのため、利用可能なデータを通常2つのパーティションに分割したいと考えるだろう。すなわち、モデルのパラメータを学習するための訓練データセット(training dataset または 訓練セット training set)と、評価のために確保されるテストデータセット(test dataset または テストセット test set)である。最終的に、私たちは通常、両方のパーティションにおけるモデルのパフォーマンスを報告する。訓練のパフォーマンスは、学生が実際の最終試験の準備に使用する模擬試験で達成した点数に例えることができる。結果が励みになるものであっても、それが最終試験での成功を保証するものではない。学習の過程で、学生は模擬問題の暗記を始め、そのトピックを習得しているように見えても、実際の最終試験で未知の問題に直面するとつまずくかもしれない。モデルが訓練セットではうまく機能するが、未知のデータに一般化できない場合、訓練データに過学習(overfitting)していると言う。
参照 (Reference)¶
この用語の詳細な文脈については Dive into Deep Learning の対応する章を参照してください: - 元章で読む