ε-greedy方策
強化学習における行動選択の課題
強化学習では、エージェントが環境と相互作用しながら、最終的な報酬を最大化するような行動を学習していきます。しかし、常に最適と思われる行動を選ぶだけでは、新しい可能性を見逃してしまう恐れがあります。一方で、いつも新しい行動を試すだけでは、既に分かっている有効な選択肢を活かせません。この「探索」と「活用」のジレンマを解決する一つの方法が、ε-greedy方策です。
ε-greedy方策の仕組み
ε-greedy方策は、確率εでランダムな行動を選択し(探索)、確率1-εで既知の情報から最適と思われる行動を選択します(活用)。εは0から1の間の値で、通常は小さな値(例:0.1)に設定されます。
具体例で考えてみましょう。3つの選択肢があり、それぞれの予想報酬が1000、800、500だとします。ε-greedy方策では、確率εでこの3つの選択肢からランダムに1つを選びます。これにより、まだ十分に探索されていない選択肢にもチャンスが与えられます。一方、確率1-εで最も高い報酬(1000)が期待できる選択肢1を選びます。
この方策の利点は、未知の可能性を探る機会を保ちつつ、既知の有効な選択肢も十分に活用できることです。εの値を調整することで、探索と活用のバランスを変えることができます。
価値関数との関係
ε-greedy方策は、価値関数と組み合わせて使われることが多いです。価値関数は、ある状態や行動の「価値」を数値化したものです。特に行動価値関数(Q関数とも呼ばれる)は、各行動の期待報酬を表現します。
ε-greedy方策を用いる際、「最適な行動」の判断基準としてこのQ値を使用します。つまり、確率1-εで選ばれる「最適な行動」は、現在のQ値が最大の行動となります。一方で、確率εでのランダムな選択により、Q値が低い行動にも時々チャンスが与えられ、その価値の再評価が行われます。
このように、ε-greedy方策は単純でありながら効果的な方法として、Q学習やSARSAなどの強化学習アルゴリズムで広く使用されています。学習の初期段階では探索を重視し、徐々に活用にシフトしていくなど、εの値を調整することで学習の進行に応じた最適な行動選択が可能になります。
