📝 試験項目
  • 強化学習の基本概念を理解する
  • 強化学習と、教師あり学習および教師なし学習との差異を説明できる
  • 価値関数の学習と、方策の学習の2つの代表的なアプローチを理解する
  • 各アプローチに属する代表的な強化学習手法について概要を理解する
  • ビジネスにおける強化学習の応用例を説明できる
🏷️ 主要キーワード
#Actor-Critic#ε-greedy方策#REINFORCE#Q学習#UCB方策#行動価値関数#状態価値関数#バンディットアルゴリズム#方策勾配法#マルコフ決定過程#割引率#SARSA ---

1. 強化学習の基本概念を理解する

💡 ポイント
  • 強化学習は、エージェントが環境と相互作用しながら最適な行動を学習する機械学習手法。
  • エージェントは状態を観測し行動を選択、環境からの報酬を基に行動を評価し、この過程を繰り返すことで学習を進める。
  • 「活用」と「探索」のバランス、マルコフ決定過程、状態・行動価値関数、方策勾配法など、様々な概念や手法が強化学習の基盤を形成している。

強化学習は機械学習の一分野であり、エージェントが環境と相互作用しながら学習を進める手法です。

図1 強化学習の枠組み (エージェント・環境・報酬)エージェントと環境の相互作用ループ (行動・状態・報酬) を示すブロック図強化学習の枠組みエージェント(Agent)状態を観測 → 行動を選択環境(Environment)次状態 s' と報酬 r を返す行動 a (Action)状態 s (State) / 報酬 r (Reward)目標: 累積報酬の最大化
図1 強化学習の枠組み (エージェント・環境・報酬)

この学習方法では、エージェントが行動を選び、その結果として環境から新しい状態と報酬を受け取ります。エージェントの目標は、長期的に得られる報酬の合計を最大にすることです。強化学習の基本的な流れは次のようになっています。まず、エージェントは現在の環境の状態を観察します。次に、観察した状態に基づいて行動を選択します。選んだ行動により、環境が新しい状態に変化します。そして、エージェントは環境の変化に応じた報酬を受け取ります。最後に、受け取った報酬をもとに、選んだ行動の評価を行います。この一連の流れを繰り返すことで、エージェントは少しずつ最適な行動を学んでいきます。

強化学習において重要な考え方の一つに、「活用」と「探索」のバランスがあります。「活用」は、これまでの経験から得た知識を使って、最も報酬が高いと考えられる行動を選ぶことを指します。一方、「探索」は、まだ試していない行動を選ぶことで、新たな可能性を探ることを意味します。このバランスを取るための方法として、バンディットアルゴリズムがあります。例えば、ε-greedy方策では、多くの場合は最も報酬が高いと思われる行動を選びますが、一定の確率でランダムな行動を選びます。また、UCB方策では、これまでの報酬の期待値が高い選択肢を基本としつつ、試行回数が少ない行動も積極的に選びます。強化学習のモデル化で重要な概念に、マルコフ決定過程があります。

図2 マルコフ決定過程状態・行動・報酬・遷移確率を時系列で展開したMDPの状態遷移図マルコフ決定過程 (MDP)st状態st+1次状態st+2次々状態行動 atP(s' | s, a)報酬 r行動 at+1P(s' | s, a)報酬 r(確率的に分岐)マルコフ性: 次状態は現在の状態と行動だけで決まる (過去の履歴に依存しない)s: 状態 / a: 行動 / r: 報酬 / P: 状態遷移確率
図2 マルコフ決定過程

これは、次の状態への移り変わる確率が、現在の状態だけに依存し、それ以前の状態には依存しないという特徴を持つモデルです。この特徴により、複雑な問題を扱いやすくなります。

強化学習の目的は、最適な方策(各状態でどの行動を選ぶかの戦略)を見つけることですが、実際にはこれを直接求めるのは難しいです。そこで、状態や行動の「価値」を表す関数を導入し、その関数を最適化することで間接的に最適な方策を見つける方法が使われます。具体的には、状態価値関数と行動価値関数が使われます。特に行動価値関数は重要で、これはQ値とも呼ばれます。Q値を最適化する方法として、Q学習やSARSAなどがあります。一方で、方策を直接最適化しようとする方法もあります。方策勾配法は、方策をパラメータ化された関数として表現し、累積報酬の期待値が最大となるようにそのパラメータを調整します。この方法は、ロボット制御など行動の選択肢が多い課題で特に効果的です。

2. 強化学習と、教師あり学習および教師なし学習との差異を説明できる

💡 ポイント
  • 強化学習の基本的考え方は、環境との相互作用を通じて報酬を最大化する行動を学習する仕組みである。
  • エージェント、環境、状態、行動、報酬という要素で構成され、試行錯誤を繰り返しながら最適な行動を見出していく。
  • 教師あり学習や教師なし学習とは異なり、長期的な報酬最大化を目指し、「活用」と「探索」のバランスを取りながら学習を進める点が特徴的である。

強化学習は、行動を学習する仕組みを基本としています。この学習方法では、特定の環境下で目標とする報酬(スコア)を最大化するために、最適な行動を学んでいきます。強化学習の構成要素には、エージェント、環境、状態、行動、報酬があります。これらの要素が相互に作用しながら学習が進んでいきます。具体例として自動運転車を考えてみましょう。車(エージェント)は周囲の状況(環境)を把握し、その状態に基づいて進む、止まる、曲がるなどの行動を選びます。その結果、環境が変化し、新たな状態が生まれます。このサイクルが繰り返される中で、適切な行動には報酬が与えられ、エージェントは報酬を最大化するよう学習を重ねていきます。一方、教師あり学習は与えられたデータ(入力)を基に、そのデータがどのようなパターン(出力)になるかを識別・予測することを目指します。例えば、過去の売上データから将来の売上を予測したり、動物の画像からその種類を識別したりするのに適しています。教師なし学習は、入力データのみを用いて、そのデータが持つ構造や特徴を見出すことを目的としています。

例えば、オンラインショップの売上データから顧客層を分類したり、データ項目間の関係性を把握したりするのに使われます。これらの違いを踏まえると、強化学習の特徴がより明確になります。強化学習は、試行錯誤を通じて最適な行動を学習していく点が特徴的です。教師あり学習のように正解のラベルが与えられるわけではなく、また教師なし学習のようにデータの構造を見出すわけでもありません。強化学習では、エージェントが環境と相互作用しながら、長期的な報酬を最大化する方策を学習していきます。この過程で重要になるのが、「活用」と「探索」のバランスです。既知の情報を活用して報酬を得ることと、新しい可能性を探索することのバランスを適切に管理することが、効果的な学習につながります。

3. 価値関数の学習と、方策の学習の2つの代表的なアプローチを理解する

💡 ポイント
  • 価値関数学習は状態や行動の価値を最大化し、Q学習やSARSAなどの手法がある。
  • 方策直接学習は最適な方策を直接探索し、方策勾配法としてREINFORCEなどがある。
  • 両者を組み合わせたActor-Critic法も存在し、問題の性質に応じて適切な手法を選択することが重要である。

強化学習には、価値関数の学習と方策の学習という2つの代表的なアプローチがあります。

比較項目 価値関数の学習 方策の学習
学習対象 状態価値関数 / 行動価値関数 (Q 値) 方策 (パラメータ化された関数)
代表的な手法 Q学習、SARSA 方策勾配法 (REINFORCE)
適した場面 状態・行動の価値を明確に定義できる問題 行動の選択肢が多い問題、連続的な行動空間
組合せ手法 Actor-Critic (Actor=方策学習、Critic=価値関数学習) を併用

注: Actor-Critic は両アプローチの利点を活かす組合せ手法である。

表1 価値関数学習と方策学習の比較

これらのアプローチは、異なる方法で最適な行動を見つけ出すことを目指しています。価値関数の学習では、状態や行動の「価値」を設定し、その価値が最大となるように学習を進めます。この手法では、状態価値関数と行動価値関数という2種類の関数を用います。特に重要なのは行動価値関数で、これは通常「Q値」と呼ばれます。Q値を最適化することで、適切な行動を選択できるようになります。この手法の代表例としては、Q学習やSARSAがあります。一方、方策の直接学習は、最適な方策を直接見つけ出そうとするアプローチです。方策勾配法と呼ばれるこの手法では、方策をあるパラメータで表される関数とし、そのパラメータを学習することで直接方策を最適化します。この方法は特に、ロボット制御など行動の選択肢が非常に多い課題で効果を発揮します。

方策勾配法の具体例としては、REINFORCEという手法があり、AlphaGoにも活用されています。さらに、これら2つのアプローチを組み合わせた手法も存在します。Actor-Criticと呼ばれるこの方法は、行動を決めるActor(行動器)と方策を評価するCritic(評価器)から構成されています。この組み合わせにより、両アプローチの利点を活かすことができます。これらの手法はそれぞれ特徴があり、解決すべき問題の性質によって適切な選択が変わります。例えば、行動の選択肢が多い場合は方策勾配法が適している可能性があります。一方で、状態や行動の価値を明確に定義できる問題では、価値関数の学習が効果的かもしれません。実際の応用では、問題の特性を見極めて適切な手法を選択することが大切です。

4. 各アプローチに属する代表的な強化学習手法について概要を理解する

💡 ポイント
  • バンディットアルゴリズムは、「活用」と「探索」のバランスを取る手法であり、ε-greedy方策とUCB方策が代表的である。
  • 価値関数を用いたアプローチでは、Q学習とSARSAが主要な手法であり、Q関数を用いて状態・行動の価値を推定する。
  • 方策勾配法は直接最適な方策を見つけ出す手法で、REINFORCEが代表例であり、連続的な行動空間を扱う場合に有効。

バンディットアルゴリズム

強化学習において、「活用」と「探索」のバランスを取ることが重要です。

図3 多腕バンディットの探索と活用4本のアームと推定報酬・試行回数、活用と探索の選択基準を示す多腕バンディット問題における 活用 と 探索0.00.51.0推定報酬アーム 1推定 0.6試行 500.6アーム 2推定 0.7試行 200.7アーム 3推定 0.5試行 800.5アーム 4推定 0.4試行 50.4活用 (Exploit)推定報酬が最大探索 (Explore)試行回数が少ない活用:既知情報で報酬を最大化 (推定報酬最大のアームを選ぶ)探索:未試行・少試行の選択肢を試す (推定の不確かさを減らす)ε-greedy: 確率 ε でランダム探索、1−ε で活用 / UCB: 試行回数が少ない行動を優先※ 推定報酬・試行回数の数値はダミー (実データではない)
図3 多腕バンディットの探索と活用

活用とは、既知の情報から最も高い報酬が得られると予想される行動を選ぶことです。一方、探索とは、新しい情報を得るために未知の行動を試すことを指します。このバランスを取るための手法としてバンディットアルゴリズムがあります。代表的なものとして、ε-greedy方策とUCB方策が挙げられます。ε-greedy方策は、基本的には最も報酬が高いと予想される行動を選びますが、一定の確率でランダムな行動を選択します。一方、UCB方策は期待値の高い選択肢を基本としつつ、あまり試していない行動を優先的に選ぶ方法です。これらの方策を用いることで、未知の環境でも効率的に学習を進めることができます。各方策には特徴があり、状況に応じて適切な方法を選択することが重要です。バンディットアルゴリズムは、シンプルながらも強化学習の基本的な考え方を体現しており、より複雑な問題に取り組む際の基礎となる重要な概念です。

価値関数を用いたアプローチ

強化学習の目的は、将来にわたって得られる報酬の合計(累積報酬)を最大化することです。この目的を達成するため、状態や行動の「価値」を評価する関数を用いるアプローチがあります。代表的な手法として、Q学習とSARSAがあります。これらの手法では、行動価値関数(Q関数)を用いて各状態・行動の組み合わせの価値を推定します。Q関数の値は通常「Q値」と呼ばれ、この値を最適化することで適切な行動を選択できるようになります。Q学習とSARSAの違いは、Q値の更新方法にあります。Q学習は次の状態で取りうる最大のQ値を用いて更新を行うのに対し、SARSAは実際に選択した行動のQ値を用いて更新を行います。

方策勾配法

価値関数を用いるアプローチとは異なり、直接最適な方策(行動の選び方)を見つけ出そうとするのが方策勾配法です。この手法では、方策をあるパラメータで表される関数とし、累積報酬の期待値が最大となるようにそのパラメータを学習します。方策勾配法の代表的な手法の一つにREINFORCEがあります。この手法は、行動の選択肢が非常に多い場合や、連続的な行動空間を扱う場合に特に有効です。例えば、ロボットの制御のような複雑な課題に適用されることがあります。

Actor-Critic法

Actor-Critic法は、価値関数を用いたアプローチと方策勾配法の考え方を組み合わせた手法です。この手法では、行動を決定する「Actor」(行動器)と、その行動の良し悪しを評価する「Critic」(評価器)の2つの要素が協調して学習を進めます。Actorは方策を学習し、Criticは価値関数を学習します。Criticの評価を基にActorが方策を改善し、その方策に基づいてCriticがより正確な評価を行うという形で、互いに影響し合いながら学習が進んでいきます。

5. ビジネスにおける強化学習の応用例を説明できる

💡 ポイント
  • 強化学習は機械学習の一分野で、複雑な意思決定や長期的戦略が必要な状況で効果を発揮する。
  • 自動運転、ECサイト、製造業、金融分野、エネルギー管理システムなど、幅広いビジネス領域で活用されている。
  • これらの応用では、環境の「状態」を認識し、適切な「行動」を選択し、目標とする「報酬」を最大化するよう学習を進める。

自動運転技術

自動運転技術は、強化学習の代表的な応用例の一つです。自動車が道路環境を正確に認識し、適切な運転操作を行うためには、様々な状況に応じた判断が求められます。強化学習を用いることで、車両は周囲の状況を「状態」として捉え、アクセル、ブレーキ、ハンドル操作などの「行動」を選択し、安全な走行という「報酬」を最大化するように学習を進めます。

ECサイトのレコメンデーションシステム

ECサイトにおける商品のレコメンデーションシステムも、強化学習の活用が進んでいる分野です。ユーザーの過去の購買履歴や閲覧履歴を「状態」として、どの商品を推薦するかという「行動」を選択し、実際の購買や閲覧時間の増加などを「報酬」として学習を進めます。これにより、個々のユーザーの好みに合わせた、より効果的な商品推薦が可能になります。

製造業における生産ラインの最適化

製造業における生産ラインの最適化にも、強化学習が応用されています。生産設備の稼働状況や在庫量を「状態」として捉え、各工程での生産量や作業順序の調整を「行動」とし、生産効率や品質の向上を「報酬」として学習を行います。これにより、需要の変動や設備の状態に応じた柔軟な生産計画の立案が可能となります。

金融分野での活用

金融分野では、株式のトレーディングや資産運用に強化学習が活用されています。市場の状況や各銘柄の動向を「状態」として、売買のタイミングや数量を「行動」とし、収益率を「報酬」として学習を進めます。これにより、市場の変化に迅速に対応し、リスクを抑えつつ収益を最大化する戦略の構築が可能になります。

エネルギー管理システム

エネルギー管理システムにおいても、強化学習の応用が進んでいます。電力需要や再生可能エネルギーの発電量を「状態」として、各発電設備の出力調整を「行動」とし、電力の安定供給とコスト削減を「報酬」として学習を行います。これにより、天候や需要の変動に柔軟に対応した効率的な電力供給が可能となります。


キーワード解説

Actor-Critic
価値関数ベースと方策勾配ベースの考え方を組み合わせた手法であり、行動を決定する「行動器」(Actor)と価値評価を行う「評価器」(Critic)を用意し、両者を交互に更新しながら学習を進める方法である。アルゴリズムの名前は、これら行動器と評価器から成っていることに由来する。具体的な実装例としては、A2C(Advantage Actor-Critic)やDDPG(Deep Deterministic Policy Gradient)などが存在する。Actor-Criticの利点は、行動器が直接方策を学習することで、連続的な行動空間に対応できる点である。また、評価器によって行動価値を評価し、方策の改善に利用することで、学習の安定性が向上し、収束速度も早くなる。さらに、価値関数と方策勾配法を組み合わせることで、方策勾配法の分散の問題や、価値関数ベースの手法における最適行動の発見の困難さを緩和することができる。Actor-Criticアルゴリズムの欠点としては、ハイパーパラメータ調整が必要な場合があり、学習の効果に大きく影響することがある。
ε-greedy方策
Q学習で用いられるアプローチで、探索と活用のバランスを取りながら累積報酬の最大化を目指す。探索では行動をランダムに選択し、活用では報酬平均が最高な行動を選択する。ε(イプシロン)はハイパーパラメータで、小さい値だと既知の情報を活用する確率が高く、大きい値だとランダムな探索が頻繁に行われる。この戦略の目的は最適な行動を確実に発見することであり、探索と活用のバランスが重要となる。
REINFORCE
強化学習アルゴリズムの一つであり、自ら生成したサンプルを擬似的な教師データとして利用し、評価が高いサンプルに高い重みを与えて学習を行う方法である。このアルゴリズムは、方策勾配法の一種であり、特にモンテカルロ法を用いた学習手法として知られている。AlphaGoにおいても、REINFORCEアルゴリズムが活用された。REINFORCEの利点は、学習過程で必要な計算量が少なく、実装が比較的簡単であることである。また、探索と利用のバランスを適切に調整しながら学習を進めることができるため、最適な方策に収束しやすくなる。さらに、擬似的な教師データを用いることで、教師あり学習の枠組みを利用しつつ、強化学習の問題設定に対応することが可能である。REINFORCEの欠点としては、サンプル効率が低いことが挙げられる。つまり、大量のサンプルが必要となり、学習に時間がかかることがある。また、方策勾配の推定において高い分散が生じることがあり、これが学習の不安定性につながることがある。
Q学習
エージェントが行動するたびにQ値を更新する学習法。2013年にDeep Mind社はディープラーニングを組み合わせたDQNを発表した。その後、Double DQN、Dueling Network、Categorical DQN、Rainbowなどが提案された。
UCB方策
報酬和の期待値が高い行動を選択する基本方針を持ちながら、試行回数が少ない行動を優先的に選ぶアプローチである。この方法では、探索と活用のバランスを考慮してアームの選択を行い、報酬の最大化を目指す。UCB方策では、各行動の報酬の期待値と試行回数を考慮した評価値を計算し、評価値が最も高い行動を選択する。試行回数が少ない行動は、評価値に大きな不確かさが含まれているため、これらの行動を優先的に選択することで探索を促進する。
行動価値関数
強化学習の目的は、現在の状態から将来の累積報酬が最大となるような行動を選択していくことだが、実際に最適な方策を見つけ出すのは難しいため、最適な方策を直接求める代わりに状態や行動の「価値」を設定し、その価値が最大となるように学習をするアプローチの検討がされた。行動価値関数は、状態sでの行動aを評価する関数であり、状態sに対して、どの行動が最適なものかを導く手法である。一般に「価値関数」と言った場合この行動価値関数を指す。価値関数のことをQ値(Q-value)とも呼び、これを最適化することで最適な行動ができるようになるといえる。Q値を最適化する手法にはQ学習(Q-learning)、SARSAなどがある。
状態価値関数
強化学習において状態の「価値」を表す関数で、直近の報酬に次の状態の価値関数を足したもの。方策および遷移確率で未来のとりうる値は変わってくるので、その期待値をとる。最適な方策を直接求める代わりに、状態の価値を設定しその価値が最大となるように学習を進めるアプローチに用いられる。行動価値関数と並んで、強化学習における価値関数アプローチの基礎となる関数である。
バンディットアルゴリズム
バンディットアルゴリズムは、強化学習において将来の累積報酬を最大化する行動を選択する際に活用される手法である。行動の組み合わせが無数に存在するため、「活用」と「探索」という2つの考え方が重要となる。活用では、既知の情報を基に報酬が最大となる行動を選択する。一方、探索では、未知の情報を得るために新たな行動を試みる。バンディットアルゴリズムは、この活用と探索のバランスをうまく取りながら、エージェントが最適な行動を選択する能力を向上させることを目指す。強化学習においてはどちらも重要な要素であり、この活用と探索のバランスを取る手法の総称をバンディットアルゴリズムという。ε-greedy方策やUCB方策がある。
方策勾配法
方策をあるパラメータで表される関数とし、累積報酬の期待値が最大となるようにそのパラメータを学習することで、直接方策を学習していくアプローチを方策勾配法という。方策反復法の1つの手法であり、方策勾配定理に基づき実装される。ロボット制御など、特に行動の選択肢が大量にあるような課題で用いられる。方策勾配法の利点は、連続的な行動空間や大規模な行動空間においても適用可能であることで、これによりロボット制御や自動運転車のような実世界の問題に対処することができる。また、方策勾配法は、適切な方策関数を選択することで、学習が効率的に進行し、最適な方策に収束する可能性が高まる。この方法では、状態空間や行動空間が大きくなるにつれて計算量が増加するため、高次元の問題に対しては計算負荷が高くなることが欠点である。
マルコフ決定過程
マルコフ性とは確率論における確率過程が持つ特性の一種であり、環境に対して暗黙的にある仮定を置くことで、「現在の状態から将来の状態に遷移する確率は、現在の状態にのみ依存し、それより過去のいかなる状態にも一切依存しない」という性質。強化学習において、状態遷移にマルコフ性を仮定したモデルをマルコフ決定過程モデルという。エージェントは環境と相互作用し、行動を選択し、報酬を受け取りながら学習を行う。この過程で、マルコフ決定過程モデルは状態、行動、報酬、および状態遷移確率に関する情報を組み合わせて、エージェントが環境の中で最適な方策を見つける手助けをする。マルコフ決定過程モデルは、状態遷移の不確かさや報酬の期待値を考慮して、問題を数学的に定式化し、解決することができる。これにより、エージェントは最終的な報酬を最大化するような方策を獲得する。
割引率
強化学習の行動を選択する段階において、将来もらえると期待できる報酬の総和を見積もるため、即時報酬に乗算する値。この見積もりは即時報酬から割り引かれて計算され、割引くための係数を割引率という。0から1の間の値をとる。割引率が高い場合、将来の報酬がより重視され、逆に割引率が低い場合は即時報酬が重要視される。割引率を用いて、将来得られる報酬の総和の見積もりが計算される。この見積もりは割引された報酬の和として表現され、エージェントはこの割引された報酬の和を最大化するような行動を選択することを目指す。
SARSA
価値関数を用いた強化学習アルゴリズムの一つで、Q学習と並ぶ代表的な手法である。エージェントが実際に取った行動に基づいてQ値を更新する点が特徴であり、Q学習が次の状態で取りうる最大のQ値を用いて更新するのに対し、SARSAは実際に選択した行動のQ値を用いて更新を行う。名称は更新に用いる「状態(State)」「行動(Action)」「報酬(Reward)」「次の状態(State)」「次の行動(Action)」の頭文字に由来する。Q学習がオフポリシー型であるのに対し、SARSAはオンポリシー型と分類され、現在の方策に従って学習を進めるため、探索を含む方策の安定性に強みを持つ。