マルコフ決定過程 (Markov decision process)

定義 (Definition)

環境が完全に観測可能である場合、その強化学習問題をマルコフ決定過程(Markov decision process)と呼ぶ。状態が過去の行動に依存しない場合、それを文脈付きバンディット問題(contextual bandit problem)と呼ぶ。状態がなく、最初は未知の報酬を持つ利用可能な行動の集合のみがある場合、古典的な多腕バンディット問題(multi-armed bandit problem)となる。

参照 (Reference)

この用語の詳細な文脈については Dive into Deep Learning の対応する章を参照してください: - 元章で読む