マルコフ決定過程 (Markov decision process)¶

定義 (Definition)¶

環境が完全に観測可能である場合、その強化学習問題をマルコフ決定過程（Markov decision process）と呼ぶ。状態が過去の行動に依存しない場合、それを文脈付きバンディット問題（contextual bandit problem）と呼ぶ。状態がなく、最初は未知の報酬を持つ利用可能な行動の集合のみがある場合、古典的な多腕バンディット問題（multi-armed bandit problem）となる。

参照 (Reference)¶

この用語の詳細な文脈については Dive into Deep Learning の対応する章を参照してほしい: - 元章で読む