アクチュエータ (actuator)

定義 (Definition)

強化学習は、エージェントが一連のタイムステップにわたって環境と相互作用する問題の非常に一般的な記述を与える。各タイムステップで、エージェントは環境から何らかの観測(observation)を受け取り、その後に何らかのメカニズム(時にはアクチュエータ(actuator)と呼ばれる)を介して環境に送り返される行動(action)を選択しなければならない。そして各ループの後、エージェントは環境から報酬(reward)を受け取る。このプロセスは 図 1.3.7 に示されている。エージェントはその後、次の観測を受け取り、次の行動を選択する、というように続く。強化学習エージェントの振る舞いは方策(policy)によって支配される。手短に言えば、方策は環境の観測から行動へのマッピングを行う単なる関数である。強化学習の目標は、優れた方策を導き出すことである。

参照 (Reference)

この用語の詳細な文脈については Dive into Deep Learning の対応する章を参照してください: - 元章で読む