信用割り当て (credit assignment)¶
定義 (Definition)¶
チェスのゲームを考えてみよう。唯一の実際の報酬信号はゲームの最後にやってくる。勝負に勝って例えば \(1\) の報酬を得るか、負けて例えば \(-1\) の報酬を受け取るときである。そのため、強化学習器は信用割り当て(credit assignment)の問題、すなわち結果に対してどの行動を評価し、または非難すべきかを決定する問題に対処しなければならない。10月11日に昇進した従業員についても同じことが言える。その昇進はおそらく、前年の間に適切に選択された多数の行動を反映している。将来昇進するためには、これまでのどの行動が昇進につながったのかを解明する必要がある。
参照 (Reference)¶
この用語の詳細な文脈については Dive into Deep Learning の対応する章を参照してください: - 元章で読む