このシリーズではChatGPTを中心とした最新の大規模言語モデル(LLM)に関する情報をまとめています。最新AI技術を使用した「ChatGPT」をはじめとした、自然言語処理技術の概要や活用方法について紹介しておりますので、ぜひ最後までご覧ください。
※大規模言語モデルは技術の進歩がとても速い分野となりますので、最新の情報もこちらからご確認ください。
今回の記事では、自律AIエージェントの概要を紹介します。
今回の内容
・自律AIエージェントとは
・自律AIエージェントのプロジェクト例
- 「ウエストワールド」シミュレーション
- Camel
- BabyAGI
- AutoGPT
GPT-4とは
GPT-4は、2023年3月14日にOpenAIが発表した最新の人工知能モデルです。画像やテキストを入力として受け取り、テキストを出力することができます。例えば、画像から物語を生成したり、テキストから質問に答えたりすることが可能です。GPT-4は自然言語処理やコンピュータビジョンのさまざまなタスクで人間レベルの性能を発揮することができます。トランスフォーマーというニューラルネットワークのアーキテクチャを採用しており、インターネット上の大量のデータから事前学習されています。OpenAIのウェブサイトやMicrosoft BingやChatGPTなどのサービスで利用できます。詳細情報は公式サイトからご確認いただけます。また、開発者向けのデモ動画も配信されています。
GPT4の概要:GPT-4 (openai.com)
GPT4の詳細情報:GPT-4 (openai.com)
自律AIエージェントとは
ここ最近では自律AIエージェントが注目されています。この分野での進歩と展開が非常に急速に進んでおり、AIの専門家であるアンドレイ・カーパシー氏をはじめとする人々は、AutoGPTをプロンプトエンジニアリングの次のフロンティアと呼んでいます。
自律AIエージェントは「LLM」を使用して繰り返し実行する行動を決定し、以前の行動の結果を観察することに基づいて、将来の行動を決定するシステムを意味します。ループ上で動作し、各繰り返しで自己指向的な指示と行動を生成します。その結果、彼らは人間による会話の指導に頼ることなく、非常にスケーラブルです。バグを修正しながらプログラムを書くなど、観察と行動を繰り返すことで、一連の複雑なタスクを遂行できるようになります。
このアプローチには、次のような利点があります。
・LLMを外部の知識や計算源と組み合わせることができる。
・反復的な計画と行動によって、一連の作業がある複雑なタスクを遂行できる。
・エージェントが行動でエラーが発生したかどうかを観察し、修正を試みることができる。
「LLM」が「推論」(行動理由の推論) と「行動」(理由に従って行動) の両方を交互に実行してタスクを遂行する仕組みは、「ReAct」と呼ばれています。
ここからは自律AIエージェントのプロジェクトの例を紹介していきます。
自律AIエージェントのプロジェクト例
「ウエストワールド」シミュレーション
スタンフォード大学とGoogleの研究者たちは、人間の行動をシミュレートできる25の生成AIエージェントを備えたインタラクティブな砂場環境を作りました。彼らは公園を散策したり、カフェでコーヒーを飲んだり、同僚とニュースを共有したりします。驚くべき社会的行動が示されました。
例えば、「バレンタインデーのパーティーを開こう」という一つのユーザー指定の考えから始めて、エージェントたちは自主的に次の2日間でパーティーの招待状を広げ、新しい知り合いを作り、お互いにパーティーにデートを誘い、正しい時間に一緒にパーティーに参加するように調整します。
このような人間の行動の信じられるシミュレーションは、大規模な言語モデルを拡張したエージェントアーキテクチャによって、メモリ、リフレクション、計画の3つの重要な基本概念が可能になります。
- メモリと検索
メモリストリームには、各エージェントに対してタイムスタンプ付きの観察リストが含まれています。観察は、エージェントが実行した行動や、他のエージェントから知覚した行動を含みます。メモリストリームは長いものですが、メモリストリーム内のすべての観察が重要というわけではありません。
言語モデルに伝達する最も重要なメモリを検索するために、次の3つの要素を考慮する必要があります。
・最近性:最近の記憶が重要
・重要性:エージェントが重要だと考える記憶。例えば、誰かと別れることは朝食を食べることよりも重要な記憶です。
・関連性:状況やクエリメモリに関連する記憶。例えば、化学の試験に何を勉強するか話し合うときは、学校の仕事に関する記憶が重要です。
- リフレクション
リフレクションは、エージェントが一般化し、推論を行うための高レベルの抽象的な思考です。リフレクションは、次の2つの質問によって定期的に生成されます。「声明の主題について答えられる最も顕著な高レベルの質問は何ですか?」、「上記の声明からどのような5つの高レベルの洞察が導かれますか?」
- 計画
計画は、行動がその瞬間だけでなく、より長い時間の地平線にわたって一貫性と信憑性を持っているため、重要です。計画もメモリストリームに保存されます。エージェントは、計画に基づいて行動を作成し、メモリストリーム内の他の観察に応じて計画を更新できます。
これに対する応用の可能性は絶大であり、少し怖いかもしれません。あなたのすべての動きを観察し、あなたのために計画を立て、場合によっては実行するアシスタントを想像してみてください。あなたが何も言わないうちに、自動的に照明を調整し、コーヒーを入れ、夕食の予約をしてくれるでしょう。
Camel
CAMEL(大規模言語モデル社会の「心」探索のためのコミュニケーションエージェント)は、2つのAIエージェントが互いにコミュニケーションする役割演技エージェントフレームワークを提案しています。
- AIユーザーエージェント:タスクを完了する目的で、AIアシスタントに指示を出します。
- AIアシスタントエージェント:AIユーザーの指示に従い、タスクの解決策を提案します。
- タスク指定エージェント:実際には、AIユーザーとAIアシスタントが完了する特定のタスクを考案するタスク指定エージェントという別のエージェントが存在します。これにより、ユーザーが時間をかけて定義することなく、具体的なタスクプロンプトが作成されます。
この例では、人間が取引ボットの開発を考えています。AIユーザーは株式トレーダーであり、AIアシスタントはPythonプログラマーです。タスク固有のエージェントが最初にタスクの詳細を含む具体的なタスクを考案します(ソーシャルメディアのセンチメントを監視し、センチメント分析の結果に基づいて株式取引を行う)。その後、AIユーザーエージェントはタスクのプランナーとなり、AIアシスタントエージェントはタスクの実行者となり、何らかの終了条件が満たされるまでループで互いにプロンプトします。
Camelの本質は、プロンプトエンジニアリング、つまりインセプションプロンプティングにあります。プロンプトは、役割の割り当て、役割の入れ替えの防止、害や偽情報の禁止、一貫した会話の促進を目的として、実際には慎重に定義されています。Camelの論文で詳細なプロンプトを確認してください。
BabyAGI
中島洋平氏は3月28日に「タスク駆動型自律エージェント」を発表し、4月3日にBabyAGIプロジェクトをオープンソース化しました。BabyAGIの主な特徴は、タスク実行エージェント、タスク作成エージェント、タスク優先順位付けエージェントの3つのエージェントです。
- タスク実行エージェントは、タスクリストから最初のタスクを完了します。
- タスク作成エージェントは、前のタスクの目的と結果に基づいて新しいタスクを作成します。
- タスク優先順位付けエージェントは、タスクの順序を再調整します。 そして、この単純なプロセスが何度も繰り返されます。
AutoGPT
AutoGPTは、BabyAGIとLangChainツールを組み合わせたようなものです。BabyAGIと同様のロジックに従っており、思考の生成、推論、計画の生成、批判、次の行動の計画、実行の無限ループです。
実行ステップでは、AutoGPTはGoogle検索、ウェブサイトの閲覧、ファイルへの書き込み、Pythonファイルの実行など、多くのコマンドを実行できます。
AutoGPTを実行すると、最初に入力する2つのプロンプトが表示されます。1)AIの役割、2)AIの目標です。ここでは、与えられた例(ビジネスの構築)を使用しています。
AutoGPTの特徴の1つは、人間との相互作用が(ある程度)可能であることです。Googleコマンドを実行しようとすると、承認を求められるため、OpenAI APIトークンに多額の費用をかける前にループを停止できます。ただし、リアルタイムでより良い指示やフィードバックを提供できるように、人間との会話も許可されるといいでしょう。
まとめ
最後までご覧いただきありがとうございました。本記事では、4つの主要な自律AIエージェントプロジェクトについて検討しました。これらは開発初期段階にあるにもかかわらず、すでに印象的な成果と潜在的な応用例を示しています。