・LLMの「真ん中の情報が失われる」問題の説明と、その原因についてのAn氏らの仮説
・情報密度の高い学習データセットを使った強化学習「IN2 training」の提案
・IN2 trainingを適用したFILM-7Bモデルによる検証実験と、3つの評価タスクの説明
・FILM-7Bの優れた長文脈理解能力と、実タスクでの性能向上の確認

LLMの「真ん中の情報が失われる」問題とは?

最新の大規模言語モデル(LLM)は、数万トークンもの長いコンテキストを入力として処理できるようになってきました。しかし、「lost-in-the-middle(真ん中の情報が失われる)」と呼ばれる問題が指摘されています。つまり、長い文脈の最初と最後にある情報は理解できるのに、真ん中の情報はうまく活用できないのです。
An氏らの研究グループは、この問題の原因は長文脈での学習時の明示的な教師データが不足しているからだと仮説を立てました。長い文脈のどの部分にも重要な情報がある可能性があることが十分に強調されていないというのです。

情報密度の高い学習データセットで強化学習

この仮説に基づき、An氏らは「INformation-INtensive (IN2) training」と名付けた新たな学習方法を提案しました。これは長文脈の質問応答データセットを使った強化学習です。

具体的には以下のような特徴を持つデータセットを人工的に作成しました。

  • 4000〜32000トークンの長文脈を、約128トークンの短い文の集合体とする
  • 質問に答えるには、ランダムな位置にある1つまたは複数の短文に含まれる詳細な情報の把握が必要
  • 複数の短文から情報を統合・推論することも求められる

これは強力なGPT-4-Turboモデルをプロンプト指示とともに使うことで、半自動的に生成したそうです。

FILM-7Bモデルによる検証実験

この情報密度の高い学習データを使って、Mistral-7Bモデルを追加学習したのが「FILM-7B」モデルです。検証のため、以下の3つのタスクを考案しました。

  1. Document Sentence Retrieval:自然言語の長文から、指定されたフレーズを含む1文を両方向から探す
  2. Code Function Retrieval:Pythonコードの関数定義から、指定されたコードを含む関数名を後方から探す
  3. Database Entity Retrieval:構造化データのIDから、対応するラベルと説明文を前方から探す

検証の結果、FILM-7Bは既存モデルの「真ん中の情報が失われる」問題を大幅に改善し、GPT-4-Turboと同等かそれ以上のパフォーマンスを示しました。さらに実際のタスクでも大幅な性能向上が見られ、短文脈のタスクの性能は損なわれていないことが分かりました。

An氏らの研究グループは、LLMが長い文脈の情報を十分に活用できない問題に対し、情報密度の高い学習データを使った強化学習という新たなアプローチを提案しました。人工的に生成したデータであっても、実際のタスクに十分適用可能なことも示されています。

今後、この学習方法をさらに洗練させることで、LLMの長文脈理解能力がさらに向上することが期待されます。