GLUE(General Language Understanding Evaluation)

GLUE(General Language Understanding Evaluation)は、自然言語処理(NLP)モデルが言語をどれだけ正確に理解しているかを評価するためのベンチマーク(評価基準)です​。このベンチマークは、特に英語圏の自然言語処理においてデファクトスタンダードとなっており、新しいAI言語モデルを発表する際に「GLUEスコア」を掲載することが一般的になっています​。

GLUEは、文の類似度の判断や感情のポジティブ・ネガティブ判定など、複数の指定された自然言語処理タスクの性能を評価し、これらの総合値によってモデルの言語理解能力が測定されます​​。このベンチマークは2019年に開発され、BERTやGPTのようなマルチタスク自然言語処理モデルのパフォーマンスを評価するために使われています。公開されているデータセットを基にしており、それを組み合わせてテストデータとして使用します​。

GLUEには以下のようなタスクが含まれています​:

タスク名説明
CoLA文が英語文法として正しいかを判定する
SST-2映画レビューの感情を分析する
MRPC2つの文が同じ意味を持つかを評価する
STS-B文のペアの意味的類似性を5段階で評価する
QQPQuoraで出された2つの質問が意味的に同等かどうかを判定する
MNLI2つの文の含意関係を判定する
SQuADウィキペディアから質問の答えを見つける
QNLI質問と文のペアが正しい回答を含んでいるかを評価する
RTE2つの文の含意関係を判定する
WNLI代名詞が置換された文が元の文と一致しているかを判定する

JGLUE(Japanese General Language Understanding Evaluation)

JGLUEは、日本語の自然言語理解(NLU)能力を測定するために作られたベンチマークです。これは「Japanese General Language Understanding Evaluation」の略で、早稲田大学とヤフー株式会社の共同研究により2022年に構築・公開されました​。JGLUEは、英語圏の自然言語処理のための標準ベンチマークであるGLUE(General Language Understanding Evaluation)の日本語版として公開されており、日本語のNLU研究を促進することを目的としています​​。

このベンチマークは、テキスト分類、文ペア分類、そして質問応答(QA)の3種類のタスクで構成されています​。これらのタスクは、日本語で書かれたテキストがどの程度正確に理解できるか、または特定の言語理解モデルがどの程度の性能を持っているかを評価するために使用されます。JGLUEは、利用申請など不要で、誰でも使用できるようになっており、研究者や開発者が簡単にアクセスできるように設計されています​。

JGLUE(Japanese General Language Understanding Evaluation)

2020年2月からはGLUEよりも難易度の高い「SuperGLUE」も提供されています。

SuperGLUEは、GLUEベンチマークの中から2つのタスクを残し、残りのタスクは公募に基づいて選ばれたより困難なもので構成されています。これにより、より高度な言語理解能力が要求されるようになっています​。

例えば、Microsoftが開発した自然言語モデル「DeBERTa」は、SuperGLUEのベンチマークで人間を上回るスコアを達成したことで知られています。このように、SuperGLUEを用いてAIモデルが人間に匹敵する、あるいはそれを上回る言語理解能力を持つことを実証する研究が行われています​。