.. _sec_glossary_sgd:

確率的勾配降下法 (SGD)
======================


定義 (Definition)
-----------------

もう一方の極端は、一度に1つの例だけを考え、
1つの観測に基づいて更新することです。 その結果得られるアルゴリズムである
*確率的勾配降下法*\ （SGD）は、
大規模データセットに対しても有効な戦略になりえます
:cite:`Bottou.2010`\ 。 残念ながら、SGD
には計算上および統計上の欠点があります。 1つの問題は、プロセッサが
主記憶からプロセッサキャッシュへデータを移動するよりも、
数値の乗算や加算をはるかに高速に行えるという事実から生じます。
行列–ベクトル積を実行する方が、
対応する数のベクトル–ベクトル演算を行うよりも、
最大で1桁程度効率的です。 これは、1サンプルずつ処理するのに
フルバッチよりもはるかに時間がかかりうることを意味します。
2つ目の問題は、バッチ正規化（:numref:`sec_batch_norm`
で説明します）のような一部の層は、
一度に複数の観測にアクセスできる場合にのみ うまく機能することです。

参照 (Reference)
----------------

この用語の詳細な文脈については Dive into Deep Learning
の対応する章を参照してください: -
`元章で読む <../chapter_linear-regression/linear-regression.md>`__