.. _sec_glossary_multi-armed-bandit-problem:

多腕バンディット問題 (multi-armed bandit problem)
=================================================


定義 (Definition)
-----------------

環境が完全に観測可能である場合、その強化学習問題を\ *マルコフ決定過程*\ （Markov
decision
process）と呼ぶ。状態が過去の行動に依存しない場合、それを\ *文脈付きバンディット問題*\ （contextual
bandit
problem）と呼ぶ。状態がなく、最初は未知の報酬を持つ利用可能な行動の集合のみがある場合、古典的な\ *多腕バンディット問題*\ （multi-armed
bandit problem）となる。

参照 (Reference)
----------------

この用語の詳細な文脈については Dive into Deep Learning
の対応する章を参照してください: -
`元章で読む <../chapter_introduction/index.md>`__