【生成AI論文メモ】A Survey on Retrieval-Augmented Text Generation for Large Language Models(2024/4/17)

・大規模言語モデル(LLMs)は自然言語処理で大きな進歩を遂げたが、新情報の取り込みや不正確な応答生成などの課題がある。
・Retrieval-Augmented Generation(RAG)は、LLMsに検索システムを組み合わせることで、外部の最新情報を動的に取り込み、応答の精度と信頼性を向上させる手法。
・本研究では、RAGの概要、最新の研究動向、評価手法、今後の研究の方向性について解説されている。

近年、大規模言語モデル（LLMs）は自然言語処理の分野で大きな進歩を遂げてきました。LLMsは膨大な量のテキストデータで学習することで、高度な言語理解と生成能力を獲得しています。しかし、LLMsにはいくつかの課題があります。例えば、学習に使用したデータセットに含まれていない新しい情報を取り入れることができないことや、convincingだが不正確な応答を生成してしまうことなどです。

これらの課題に対処するために、Retrieval-Augmented Generation（RAG）と呼ばれる手法が注目を集めています。RAGは、LLMsに検索システムを組み合わせることで、外部の最新情報を動的に取り込み、応答の精度と信頼性を向上させることができます。

RAGの基本的なワークフロー

RAGの基本的なワークフローは以下の3つのステップで構成されています。

インデックス作成：外部のデータソースからインデックスを作成します。これにより、関連情報を効率的に検索できるようになります。
検索：クエリに基づいて、retrieverモデルを使用してインデックスから関連情報を検索します。
生成：検索された情報とクエリを組み合わせて、generatorモデルが最終的な応答を生成します。

RAGのパラダイム

Huang氏らは、RAGの研究を整理するために、検索の観点からRAGのパラダイムを4つのフェーズに分類しています。

Pre-Retrieval：データとクエリの準備を行います。インデックス作成、クエリ操作、データ修正などが含まれます。
Retrieval：検索とランキングを行います。関連するドキュメントを選択し、クエリとの関連性に基づいて優先順位付けします。
Post-Retrieval：検索結果を洗練します。Re-rankingとFilteringが含まれます。
Generation：検索された情報を利用して、応答を生成します。EnhancingとCustomizationが含まれます。

評価手法

RAGシステムの評価には、以下のような手法が使用されています。

RAGAS：RAGシステムの品質を評価するためのフレームワークです。Context Relevance、Answer Relevance、Faithfulnessの3つの側面から評価します。
ARES：RAGASを改善したフレームワークです。信頼区間を使用して評価の信頼性を向上させています。
RECALL：RAGシステムのCounterfactual Robustnessを評価します。
RGB：RAGがLLMsに与える影響を評価します。Noise Robustness、Negative Rejection、Information Integration、Counterfactual Robustnessの4つの側面から評価します。