.. _sec_glossary_multi-armed-bandit-problem: 多腕バンディット問題 (multi-armed bandit problem) ================================================= 定義 (Definition) ----------------- 環境が完全に観測可能である場合、その強化学習問題を\ *マルコフ決定過程*\ (Markov decision process)と呼ぶ。状態が過去の行動に依存しない場合、それを\ *文脈付きバンディット問題*\ (contextual bandit problem)と呼ぶ。状態がなく、最初は未知の報酬を持つ利用可能な行動の集合のみがある場合、古典的な\ *多腕バンディット問題*\ (multi-armed bandit problem)となる。 参照 (Reference) ---------------- この用語の詳細な文脈については Dive into Deep Learning の対応する章を参照してください: - `元章で読む <../chapter_introduction/index.md>`__