【G検定】BERT（Bidirectional Encoder Representations from Transformers）

【G検定まとめ】要点整理＆当日用カンペの項目別詳解ページです。

詳細な知識や実装は試験には必ずしも必須ではありませんが、試験対策として理解を深めたい方はぜひ最後までご覧ください。

G検定まとめはこちら

BERT（Bidirectional Encoder Representations from Transformers）

BERT（Bidirectional Encoder Representations from Transformers）は、2018年10月にGoogleによって発表された自然言語処理モデルであり、Jacob Devlin氏らの研究チームによって開発されました。このモデルは、双方向の文脈を理解することを可能にするTransformerアーキテクチャを使用し、特に大規模な教師なしデータセット上での事前学習において優れた性能を発揮します。BERTは事前学習において2つのタスクを行い、その後特定のタスクに合わせてファインチューニングされ、様々なNLPタスクで高い成果を達成しています。

事前学習とファインチューニング

BERTは事前学習と微調整という二つの主要な学習フェーズを持っています。最初の「事前学習」段階では、大量のラベル付けされていないテキストデータを使って、言語の一般的なパターンを学習します。この段階で、ランダムに選ばれた単語を隠して、その単語を予測するタスクや、二つの文が連続しているかを識別するタスクを行うことで、言語理解のための一般的な知識を獲得します。その後の「微調整」段階では、事前学習されたパラメータを初期値として、特定のタスクに特化したラベル付けされたデータを用いて、全てのパラメータを微調整します。各タスクごとに微調整されたモデルが存在し、モデルがそのタスクの目的に合わせて最適化されるよう調整されます。微調整は単に追加の出力層を加えるだけで、多岐にわたるタスクに対して最先端のモデルを作成でき、大幅なタスク固有のアーキテクチャ変更を必要としません。

事前学習

BERTの事前学習では「マスク付き言語モデル」（MLM）と「次文予測」（NSP）の２つのタスクを同時に用いています。MLMタスクでは、テキストからランダムに選んだ15%のトークンを予測するために、80%の確率で[MASK]トークンに置き換え、10%の確率でランダムなトークンに置き換え、残りの10%はそのままにして文脈だけからそのトークンを予測します。次文予測タスクでは、２つのテキストスパンがトレーニングコーパスで連続して現れるかどうかを予測します。このようにしてBERTは単語と文章の文脈内表現を学習し、事前学習後は特定のタスクに対して少ないリソースでファインチューニングを行うことができます。BERTが特に評価されたのは、事前学習を通じて多様なタスクでの転移学習が可能になり、少ないデータで効率よく学習を進められる点、及び多くのベンチマークタスクでの高い精度です。

「マスク付き言語モデル」（MLM）

例えば、日本語の文「私は朝食にパンとコーヒーを飲む」という文があったとします。マスク付き言語モデル（MLM）を使う事前学習では、この文から「コーヒー」などの単語をランダムにマスク（隠す）します。すると文は「私は朝食にパンと「MASK」を飲む」となります。この時、BERTはマスクされた部分に何が来るのかを文脈から予測しようと試みます。つまり、モデルは「パン」と「飲む」の言葉から「コーヒー」という単語がマスクされていると予測することを学びます。

BERTの派生形モデル

RoBERTa（Robustly Optimized BERT Approach）: RoBERTaは、BERTの基本構造を保持し、ハイパーパラメータの調整、学習データ量の増加、学習回数の増加、バッチサイズの拡大、Next Sentence Prediction（NSP）の非使用、文章の長さやマスクの方法の変更などを行い、BERTの精度を大幅に向上させた。特に、BERTが事前学習前にマスクを施し、同じマスクされた文章を繰り返していたのに対し、RoBERTaでは毎回ランダムにマスキングを行う。

DistilBERT: DistilBERTは、BERTの出力を教師データとして使用し、精度はBERTの97%を維持しながらパラメータ数を40%削減した軽量モデル。Knowledge Distillation手法を用いて、BERTを教師とし、DistilBERTを生徒として学習。計算速度を60%まで向上し、計算資源要求を減少させた。

ALBERT（A Lite BERT）: ALBERTは、BERTを軽量化し、レイヤー数や隠れ層の数を増やしモデルのスペックを向上。単語の埋め込み表現の行列を2つの小さな行列に分解し、隠れ層の次元を増やし、各レイヤーのパラメータ共有でパラメータ数を削減。NSPを廃止し、より難しいSentence Ordering Prediction（SOP）タスクを用いる。

ERNIE（Enhanced Representation through kNowledge Integration）: ERNIEは、事前学習方法を改良し、BERTと同じ双方向Transformerベース。フレーズレベルとエンティティレベル（固有名詞）のマスキングを行い、単語の埋め込み表現が固有名詞の特徴も加味し、事前知識を深くすることで賢い言語モデルを構築。

G検定学習法

最後までご覧いただきありがとうございました。

当サイトではG検定に役立つ情報をまとめています。

ぜひご覧ください。

参考書籍

①教科書として使用する書籍

体系的に知識を整理することができます。

まずは、この１冊を読んでG検定の学習を進めましょう。

検索機能が使用できるので、Kindle版が特におすすめです。

②問題集として使用する書籍

ある程度学習が進んだら、本番を意識して問題集に取り組みましょう。

本番の試験環境を意識して、このページ「要点整理＆当日用カンペ」を使用しながら解答してみましょう。

カテゴリー: G検定、資格

タグ: G検定

【G検定】BERT（Bidirectional Encoder Representations from Transformers）

BERT（Bidirectional Encoder Representations from Transformers）

事前学習とファインチューニング

事前学習

「マスク付き言語モデル」（MLM）

BERTの派生形モデル

G検定学習法

本サイトの活用方法

【G検定2024最新】試験当日も使える! 187項目の要点整理＆試験対策カンペ【新シラバス対応】

G検定シラバス改訂の概要と変更のポイント

【G検定試験対策】理解度確認問題集全200問【直前対策】

【G検定まとめ2024】YouTube動画リスト（問題編）

【G検定まとめ2024】YouTube動画リスト（講義編）

【G検定まとめ2024】試験当日も使える! 要点整理＆試験対策カンペ【旧シラバス】

参考書籍

【G検定】Grad-CAM

【G検定】LIME

【G検定】BERT（Bidirectional Encoder Representations from Transformers）

BERT（Bidirectional Encoder Representations from Transformers）

事前学習とファインチューニング

事前学習

「マスク付き言語モデル」（MLM）

BERTの派生形モデル

G検定学習法

本サイトの活用方法

【G検定2024最新】試験当日も使える! 187項目の要点整理＆試験対策カンペ【新シラバス対応】

G検定シラバス改訂の概要と変更のポイント

【G検定試験対策】理解度確認問題集 全200問【直前対策】

【G検定まとめ2024】YouTube動画リスト（問題編）

【G検定まとめ2024】YouTube動画リスト（講義編）

【G検定まとめ2024】試験当日も使える! 要点整理＆試験対策カンペ【旧シラバス】

参考書籍

【G検定】Grad-CAM

【G検定】LIME

【G検定試験対策】理解度確認問題集全200問【直前対策】