【G検定まとめ】要点整理&当日用カンペの項目別詳解ページです。

詳細な知識や実装は試験には必ずしも必須ではありませんが、試験対策として理解を深めたい方はぜひ最後までご覧ください。

G検定まとめはこちら

BERT(Bidirectional Encoder Representations from Transformers)

BERT(Bidirectional Encoder Representations from Transformers)は、2018年10月にGoogleによって発表された自然言語処理モデルであり、Jacob Devlin氏らの研究チームによって開発されました。このモデルは、双方向の文脈を理解することを可能にするTransformerアーキテクチャを使用し、特に大規模な教師なしデータセット上での事前学習において優れた性能を発揮します。BERTは事前学習において2つのタスクを行い、その後特定のタスクに合わせてファインチューニングされ、様々なNLPタスクで高い成果を達成しています。

事前学習とファインチューニング

BERTは事前学習と微調整という二つの主要な学習フェーズを持っています。最初の「事前学習」段階では、大量のラベル付けされていないテキストデータを使って、言語の一般的なパターンを学習します。この段階で、ランダムに選ばれた単語を隠して、その単語を予測するタスクや、二つの文が連続しているかを識別するタスクを行うことで、言語理解のための一般的な知識を獲得します​。その後の「微調整」段階では、事前学習されたパラメータを初期値として、特定のタスクに特化したラベル付けされたデータを用いて、全てのパラメータを微調整します。各タスクごとに微調整されたモデルが存在し、モデルがそのタスクの目的に合わせて最適化されるよう調整されます。微調整は単に追加の出力層を加えるだけで、多岐にわたるタスクに対して最先端のモデルを作成でき、大幅なタスク固有のアーキテクチャ変更を必要としません。

事前学習

BERTの事前学習では「マスク付き言語モデル」(MLM)と「次文予測」(NSP)の2つのタスクを同時に用いています。MLMタスクでは、テキストからランダムに選んだ15%のトークンを予測するために、80%の確率で[MASK]トークンに置き換え、10%の確率でランダムなトークンに置き換え、残りの10%はそのままにして文脈だけからそのトークンを予測します。次文予測タスクでは、2つのテキストスパンがトレーニングコーパスで連続して現れるかどうかを予測します。このようにしてBERTは単語と文章の文脈内表現を学習し、事前学習後は特定のタスクに対して少ないリソースでファインチューニングを行うことができます。BERTが特に評価されたのは、事前学習を通じて多様なタスクでの転移学習が可能になり、少ないデータで効率よく学習を進められる点、及び多くのベンチマークタスクでの高い精度です。

「マスク付き言語モデル」(MLM)

例えば、日本語の文「私は朝食にパンとコーヒーを飲む」という文があったとします。マスク付き言語モデル(MLM)を使う事前学習では、この文から「コーヒー」などの単語をランダムにマスク(隠す)します。すると文は「私は朝食にパンと「MASK」を飲む」となります。この時、BERTはマスクされた部分に何が来るのかを文脈から予測しようと試みます。つまり、モデルは「パン」と「飲む」の言葉から「コーヒー」という単語がマスクされていると予測することを学びます。

BERTの派生形モデル

RoBERTa(Robustly Optimized BERT Approach): RoBERTaは、BERTの基本構造を保持し、ハイパーパラメータの調整、学習データ量の増加、学習回数の増加、バッチサイズの拡大、Next Sentence Prediction(NSP)の非使用、文章の長さやマスクの方法の変更などを行い、BERTの精度を大幅に向上させた。特に、BERTが事前学習前にマスクを施し、同じマスクされた文章を繰り返していたのに対し、RoBERTaでは毎回ランダムにマスキングを行う。

DistilBERT: DistilBERTは、BERTの出力を教師データとして使用し、精度はBERTの97%を維持しながらパラメータ数を40%削減した軽量モデル。Knowledge Distillation手法を用いて、BERTを教師とし、DistilBERTを生徒として学習。計算速度を60%まで向上し、計算資源要求を減少させた。

ALBERT(A Lite BERT): ALBERTは、BERTを軽量化し、レイヤー数や隠れ層の数を増やしモデルのスペックを向上。単語の埋め込み表現の行列を2つの小さな行列に分解し、隠れ層の次元を増やし、各レイヤーのパラメータ共有でパラメータ数を削減。NSPを廃止し、より難しいSentence Ordering Prediction(SOP)タスクを用いる。

ERNIE(Enhanced Representation through kNowledge Integration): ERNIEは、事前学習方法を改良し、BERTと同じ双方向Transformerベース。フレーズレベルとエンティティレベル(固有名詞)のマスキングを行い、単語の埋め込み表現が固有名詞の特徴も加味し、事前知識を深くすることで賢い言語モデルを構築。

G検定学習法

最後までご覧いただきありがとうございました。

当サイトではG検定に役立つ情報をまとめています。

ぜひご覧ください。

本サイトの活用方法

【G検定まとめ2024】試験当日も使える! 要点整理&試験対策カンペ【動画】

1. 人工知能とは 第1回:人工知能の定義、人工知能研究の歴史 2. 人工知能をめぐる動向 第2回:探索・推論 第3回:知識表現、機械学習・深層学習 3. 人工知能分野の問題 第4回:人工知能分野の問題 4. 機械学習の […]

【G検定まとめ2024】試験当日も使える! 要点整理&試験対策カンペ

G検定の要点をシラバスから抜粋してまとめました。これから学習する方も、復習したい方にもお使いいただけます。試験当日用のG検定のカンニングペーパー参考としてもお役立てください。試験結果を保証するものではありませんので、試験 […]

【G検定2023まとめ】理解度確認&問題集まとめ【直前対策】

G検定の要点を問題形式にまとめました。試験前の理解度確認、直前対策にお役立てください。 (最終更新日:2023年3月1日) 1. 人工知能とは 問題を解く 2. 人工知能をめぐる動向 問題を解く 3. 人工知能分野の問題 […]

【G検定2023】G検定の概要と試験のポイント

このシリーズではG検定の要点を項目ごとにまとめています。 今回の記事では「G検定の概要と試験のポイント」について紹介します。 試験の概要  G検定(公式名:ジェネラリスト検定)は、JDLA:Japan Deep Lear […]

【G検定】G検定合格体験記 〜学習方法と受験体験〜

このシリーズではG検定の要点を項目ごとにまとめています。 今回の記事では、2022年7月2日(土)開催のG検定(2022#2 )に合格した学習方法と受験体験について紹介します。 これから受験される方へ参考になれば幸いです […]

【G検定2022】シラバスでみるG検定の試験内容

このシリーズではG検定の要点を項目ごとにまとめています。 今回の記事ではシラバスをもとに「G検定の試験内容」について紹介します。 試験の概要  G検定(公式名:ジェネラリスト検定)は、JDLA:Japan Deep Le […]

参考書籍

教科書として使用する書籍

体系的に知識を整理することができます。

まずは、この1冊を読んでG検定の学習を進めましょう。

検索機能が使用できるので、Kindle版が特におすすめです。

②問題集として使用する書籍

ある程度学習が進んだら、本番を意識して問題集に取り組みましょう。

本番の試験環境を意識して、このページ「要点整理&当日用カンペ」を使用しながら解答してみましょう。