22. 付録: 深層学習のための数学

Brent Werness (Amazon), Rachel Hu (Amazon), および本書の著者たち

現代の深層学習の素晴らしい点の一つは、その多くが、背後にある数学を完全に理解していなくても理解し、利用できることである。これは、この分野が成熟しつつあることの表れである。ほとんどのソフトウェア開発者がもはや計算可能関数の理論を気にする必要がないのと同じように、深層学習の実践者も最尤学習の理論的基礎を気にする必要はないはずである。

しかし、まだそこまでは至っていない。

実際には、アーキテクチャ上の選択が勾配の流れにどのような影響を与えるのか、あるいは特定の損失関数で学習することで暗黙にどのような仮定を置いているのかを理解する必要があることがある。エントロピーが一体何を測っているのか、そしてそれがモデルにおける bits-per-character の意味を正確に理解するのにどう役立つのかを知る必要があるかもしれない。これらはいずれも、より深い数学的理解を必要とする。

この付録は、現代の深層学習の中核理論を理解するために必要な数学的背景を提供することを目的としているが、網羅的ではない。まず、線形代数をより深く見ていきる。一般的な線形代数の対象と操作について幾何学的な理解を構築し、それによってさまざまな変換がデータに与える影響を視覚化できるようにする。重要な要素として、固有分解の基礎を扱う。

次に、勾配が最急降下の方向である理由、そして逆伝播がなぜそのような形を取るのかを完全に理解できるところまで、微分積分学の理論を発展させる。その後、次の話題である確率論を支えるのに必要な程度まで、積分積分学について議論する。

実際に遭遇する問題はしばしば確定的ではないため、不確実なものについて語るための言語が必要である。そこで、確率変数の理論と、最もよく遭遇する分布を概観し、モデルを確率的に議論できるようにする。これにより、確率的分類手法であるナイーブベイズ分類器の基礎が得られる。

確率論と密接に関連しているのが統計学である。統計学は短い節で扱うにはあまりにも広大な分野であるが、すべての機械学習実践者が知っておくべき基本概念、特に推定量の評価と比較、仮説検定の実施、信頼区間の構成を紹介する。

最後に、情報の保存と伝達を数学的に研究する情報理論を扱う。これにより、ある対象領域についてモデルがどれだけの情報を保持しているかを定量的に議論するための中核的な言語が得られる。

これらを合わせると、深層学習を深く理解する道へ進み始めるために必要な数学的概念の中核を成する。