強化学習のポリシーとは何ですか？

Question

私は次のような言葉を見ました：

ポリシーは、特定の時間における学習エージェントの動作方法を定義します。大まかに言うと、ポリシーとは、環境の知覚状態から、それらの状態にあるときに実行されるアクションへのマッピングです。

しかし、まだ完全には理解していませんでした。強化学習のポリシーとは正確には何ですか？

Maxim · Accepted Answer

定義は正しいですが、初めて見た場合にはすぐにはわかりません。このように言えば、ポリシーはエージェントの戦略です。

たとえば、ロボットが部屋を横切って移動し、タスクが目標ポイント（x、y）に到達し、報酬を得る世界を想像してください。ここに：

部屋は環境
ロボットの現在位置はstate
policyは、このタスクを達成するためにエージェントが行うことです：
- ダムロボットは、偶然正しい場所に到達するまでランダムに歩き回る（ポリシー＃1）
- 他の人は、何らかの理由で、ルートのほとんどの壁に沿って進むことを学ぶかもしれません（ポリシー＃2）
- スマートロボットは「頭」でルートを計画し、目標に直行します（ポリシー＃3）

明らかに、一部のポリシーは他のポリシーよりも優れており、それらを評価する方法は複数あります。つまり、state-value functionおよびアクション値関数。 RLの目標は、最良のポリシーを学ぶことです。今、定義はより理にかなっているはずです（コンテキストでは、時間は状態としてよりよく理解されることに注意してください）：

ポリシーは、特定の時間における学習エージェントの行動方法を定義します。

正式に

より正式には、最初にMarkov Decision Process（MDP）をタプル（S、A、P、R、y）、ここで：

Sは状態の有限集合です
Aはアクションの有限セットです
Pは、状態遷移確率行列（現在の各状態と各アクションの状態に至る確率）
Rは、状態とアクションが与えられた場合の報酬関数です
yは0〜1の割引係数です

次に、ポリシーπは、状態が与えられたアクションの確率分布です。これは、エージェントが特定の状態にあるときのすべてのアクションの可能性です（もちろん、ここでは多くの詳細をスキップしています）。この定義は、定義の2番目の部分に対応します。

David SilverのRLコースはYouTubeで利用できます。最初の2回の講義は特にMDPとポリシーに焦点を当てています。

Pablo EM · Answer

簡単に言えば、最も単純な場合、ポリシー_π_は、入力として状態sを取り、アクションaを返す関数です。つまり、π(s) → a

このように、ポリシーは通常、エージェントが特定の状態aにあるときに実行するアクションsを決定するために使用されます。

時々、ポリシーは決定論的の代わりに確率論的になります。そのような場合、一意のアクションaを返す代わりに、ポリシーは一連のアクションの確率分布を返します。

一般に、任意のRLアルゴリズムの目標は、特定の目標を達成する最適なポリシーを学習することです。

Martin Dinov · Answer

簡潔な答えは次のとおりです。ポリシーは、エージェントの「思考」です。これは、ある状態sにいるときのマッピングです。エージェントは今、どのアクションaを取るべきですか？ポリシーはルックアップテーブルと考えることができます。

state----action----probability/'goodness' of taking the action 1 1 0.6 1 2 0.4 2 1 0.3 2 2 0.7

状態1の場合、（欲張りな戦略を想定して）アクション1を選択します。状態2の場合、アクション2を選択します。