【G検定まとめ2026】36.データの収集・加工・分析・学習

📝 試験項目

AIの学習対象となるデータを取得・利用するときに注意すべきことを理解する
集めたデータを加工・分析・学習させるときの注意点を理解する
データを共有しながら共同開発を進める場合の留意点を理解する

🏷️ 主要キーワード

#アノテーション#オープンデータセット#コーパス#サンプリング・バイアス#データリーケージ#転移学習 ---

1. AIの学習対象となるデータを取得・利用するときに注意すべきことを理解する

💡 ポイント

AIモデル訓練のためのデータ収集において、認識対象の情報が十分に含まれているか、データの偏りがないか、そして網羅性があるかを慎重に検討する必要がある。
適切なデータ収集により、AIモデルの精度向上とバイアス問題の回避が可能となる。
個人情報を含むデータに対しては、匿名加工を行うことでプライバシー保護と有効活用のバランスを取ることが重要である。

データの適切性

図1 データの収集・加工・分析パイプライン

AIモデルを正しく訓練するためには、取得するデータが目的に適したものであるかを慎重に検討する必要があります。例えば、画像を通じて人物を検出するAIを開発する場合、収集する画像には人物がはっきりと写っていることが不可欠です。人物がぼやけていたり、背景と区別がつきにくい画像ばかりを使用すると、AIモデルの学習が不十分となり、精度の低い結果につながる可能性が高くなります。

データの偏り

訓練データが現実世界のデータ分布を適切に反映していないと、バイアスの問題が生じる可能性があります。例えば、分類問題を学習する際、データ量が多いクラスに偏って学習が進み、データの少ないクラスの精度が低下することがあります。このため、出現頻度の低いデータであっても重要な場合は多いため、そのようなデータについても十分な量を収集し、バランスの取れたデータセットを構築することが大切です。

データの網羅性

AIモデルは、学習したことのない状況において適切な推論を行うことが難しいという特徴があります。これは、データから学習を行うAIの性質上、データが存在しない状況では適切なモデル化ができないためです。そのため、安定した推論精度を得るためには、可能な限り広い状況を網羅できるようにデータを準備することが必要です。

個人情報の取り扱い

収集したデータには、個人情報が含まれている場合があります。例えば、アンケートに記載された氏名や住所情報、店頭に設置したカメラに写った来店者の顔画像などが該当します。これらの情報を保持することは、法的リスクやプライバシー侵害、セキュリティリスクにつながる可能性があります。このリスクを回避するために、個人情報を含むデータに対して匿名加工を行います。匿名加工では、個人を特定できないように情報を加工することで、プライバシー保護を図ります。具体的には、氏名などの個人識別につながる情報の削除やマスキング、データの集約化などが含まれます。画像や音声などのメディアデータの場合は、元データに復元できないような特徴量のデータにしつつ、生データは削除するといった対応が考えられます。このように、データの匿名化や適切な加工を行うことで、個人情報保護とデータの有効活用の両立を図ることができます。

2. 集めたデータを加工・分析・学習させるときの注意点を理解する

💡 ポイント

AIモデルの適切な訓練には、認識対象の情報が十分に含まれた質の高いデータが不可欠である。
データの偏りにも注意を払い、現実世界の分布を適切に反映したバランスの良いデータセットを構築することが重要となる。
また、広範な状況を網羅するデータを準備し、個人情報保護のための匿名加工を行うことで、安定した推論精度と適切なデータ活用を実現できる。

データの加工

生のデータをそのまま使えることは稀です。多くの場合、データを加工する必要があります。例えば、動画から静止画を切り出したり、複数のデータベースから情報を集約したりすることがあります。また、認識対象が特定のエリアに限定されている場合は、そのエリアだけを切り抜くなどの前処理も有効です。テキストデータの場合は、文字や単語を数字やベクトルに変換することがあります。これにより、コンピュータがより扱いやすい形式にデータを整えることができます。

教師あり学習では、正解データの作成が必須です。この作業をアノテーションと呼びます。大量のデータを扱う場合、複数人でアノテーション作業を行うことが一般的ですが、作業者間でばらつきが生じる可能性があります。この問題を解決するには、明確な要件定義、適切な作業者の割り当て、レビュープロセスの導入などが効果的です。また、詳細なマニュアルを作成し、判断基準やサンプルを示すことで、作業の一貫性を高めることができます。データに個人情報が含まれている場合は、匿名加工が必要です。氏名や住所の削除、マスキング、データの集約化などの方法で、個人を特定できないようにします。画像や音声データの場合は、元データに戻せない形で特徴量を抽出し、生データは削除するなどの対応が考えられます。

データの分析と学習環境の準備

データ分析や機械学習には、Pythonが広く使われています。Pythonには豊富なライブラリがあり、データ分析やAI開発を効率的に行えます。ただし、複数人で開発する場合や既存のコードを利用する際は、Pythonやライブラリのバージョンを統一することが大切です。環境の一貫性を保つために、pyenvやvirtualenv、Dockerなどのツールを使用します。開発環境としては、テキストエディタ、統合開発環境（IDE）、Jupyter NotebookやGoogle Colaboratoryなどのブラウザベースの環境があります。それぞれに特徴があるので、プロジェクトの性質や個人の好みに応じて選択します。

AIモデルの学習と評価

AIモデルの学習では、初期段階で大きな精度向上が見込めますが、ある程度調整が進むと改善の幅が小さくなります。この段階で更なる精度向上を目指す場合、最新の研究成果を取り入れたり、データ量を増やしたり、学習のイテレーション数を増やしたりする方法がありますが、コストとのバランスを考慮する必要があります。転移学習も有効な手段です。これは、別のタスクで学習済みのモデルを新しいタスクに応用する方法で、少量のデータでも安定した学習や精度向上が期待できます。ただし、元のタスクと新しいタスクの関連性に注意が必要です。モデルの評価では、学習データとは別のテストデータを用いることが重要です。ただし、テストデータの結果を見ながらモデルを調整すると、そのデータに過度に適合してしまう危険性があります。そのため、バリデーションデータを用意し、モデルの調整はこのデータで行い、最終評価のみテストデータで行うことが推奨されます。また、データリークにも注意が必要です。これは、モデルが学習時に本来知るべきでない情報にアクセスしてしまう現象です。例えば、未来のデータを使って過去の予測を行うモデルを学習させてしまうようなケースがあります。このようなリークは、モデルの評価を不当に高くしてしまう可能性があるので、十分な注意が必要です。

図2 データリーケージの典型例

3. データを共有しながら共同開発を進める場合の留意点を理解する

💡 ポイント

オープンデータセットの利用には利用条件の確認が不可欠で、特に商用利用の制限に注意を払う必要がある。
データ収集においては、プロジェクトの目標と予算のバランスを考慮しつつ適切なセンサーを選択することが重要である。
データの偏りや個人情報の扱いには細心の注意が必要であり、匿名化処理や偏りの少ないデータセット構築が求められる。

オープンデータセットの利用と注意点

データを共有しながら共同開発を進める際、オープンデータセットの活用は有効な手段の一つです。しかし、その利用には慎重な対応が必要です。多くのオープンデータセットは研究目的での使用を許可していますが、商用利用に制限がある場合があります。そのため、プロジェクトの目的に合わせて、適切なライセンスを持つデータセットを選ぶことが大切です。

データ収集方法の選択

データ収集にセンサーを使用する場合、プロジェクトの収益性を考慮しつつ、適切なセンサーを選ぶことが重要です。高性能なセンサーは質の高いデータを提供しますが、一般的にコストが高くなります。そのため、プロジェクトの目標と予算のバランスを考えながら、最適なセンサーを選ぶことが求められます。

データの偏りへの対応

学習データが現実世界のデータ分布を適切に反映していない場合、AIモデルの性能に悪影響を与える可能性があります。特に、データ量が限られている場合は、この問題がより顕著になることがあります。そのため、できる限り偏りの少ない、バランスの取れたデータセットを構築することが重要です。

個人情報の取り扱い

収集したデータに個人情報が含まれている場合、法的リスクやプライバシー侵害、セキュリティリスクが生じる可能性があります。これを避けるため、個人を特定できないように情報を加工する匿名化処理が必要です。具体的には、個人を識別できる情報の削除やマスキング、データの集約化などの方法があります。

開発環境の一貫性の確保

共同開発においては、開発環境の一貫性を保つことが重要です。特に、Pythonを使用する場合、ライブラリのバージョンの違いによってプログラムの動作が変わる可能性があります。そのため、プロジェクトごとに環境を切り替えられるツールを使用したり、仮想環境を利用したりすることで、開発環境の一貫性を確保することが望ましいです。

キーワード解説

アノテーション: アノテーションとは、データに対して意味や情報を付加する作業を指す。特に人工知能（AI）や機械学習の分野では、モデルの学習に必要な教師データを作成するために不可欠な工程である。例えば、画像データにおいて、特定の物体を識別するために、その物体の位置や種類をラベル付けすることがアノテーションに該当する。このようなラベル付けにより、AIモデルはデータの特徴を学習し、未知のデータに対しても適切な判断を行う能力を獲得する。アノテーションの対象となるデータは多岐にわたり、画像、音声、テキストなどが含まれる。画像データの場合、物体検出やセグメンテーションのために、対象物を囲むバウンディングボックスやピクセル単位でのラベル付けが行われる。音声データでは、発話内容の文字起こしや話者の感情状態のラベル付けが実施される。テキストデータに対しては、固有表現抽出や感情分析のためのラベル付けが行われる。アノテーションの品質は、AIモデルの性能に直結するため、正確で一貫性のあるラベル付けが求められる。しかし、手作業でのアノテーションは時間と労力を要し、コストも高くなる傾向がある。このため、専門のアノテーションツールやサービスを活用し、効率的かつ高品質なデータセットの構築が進められている。また、近年では、半教師あり学習や転移学習などの技術を活用し、アノテーションの負担を軽減する取り組みも行われている。AI開発におけるアノテーションの重要性は、モデルの精度や信頼性を左右する要因となる。適切なアノテーションを施したデータセットを用いることで、AIシステムはより正確な予測や判断を行うことが可能となる。そのため、アノテーションの工程は、AIプロジェクトの成功において欠かせない要素である。
オープンデータセット: オープンデータセットとは、誰もが自由に利用、再利用、再配布できるデータの集合を指す。これらのデータは、政府機関、研究機関、企業などが公開し、社会全体の情報共有や透明性の向上を目的としている。例えば、デジタル庁は自治体標準オープンデータセットを提供し、地方公共団体がオープンデータを更新する際に推奨されるデータ項目の集合を公開している。また、総務省の「DATA GO JP」は、各府省の保有データをオープンデータとして利用できるようにするデータカタログサイトであり、政府統計のポータルサイト「e-Stat」では、国勢調査などのデータが取得可能である。さらに、民間企業や大学等の研究者が提供するデータセットも存在し、国立情報学研究所のデータセット共同利用研究開発センター（DSC）が運営する「国立情報学研究データリポジトリ」では、各種のデータセットを研究者に提供している。これらのオープンデータセットは、AIの研究開発やデータ分析において重要な役割を担っており、データサイエンティストや研究者がモデルの訓練や検証に活用している。ただし、データの品質や適用範囲を確認し、適切な使用を心がけることが求められる。
コーパス: コーパスとは、言語学や自然言語処理の分野で用いられる、大量の言語データを体系的に収集・整理したデータベースを指す。このデータベースには、新聞記事や文学作品、会話の記録など、多様なテキストが含まれ、言語の使用実態を分析するための基盤となる。例えば、国立国語研究所が構築した「現代日本語書き言葉均衡コーパス（BCCWJ）」は、約1億語の日本語テキストを収録し、現代日本語の書き言葉の特徴を明らかにするために活用されている。コーパスの活用により、単語の使用頻度や文法構造、語彙の多様性など、言語の多面的な特徴を定量的に把握することが可能となる。これにより、言語教育や辞書編纂、翻訳、さらには人工知能の自然言語処理技術の開発など、幅広い分野での応用が進んでいる。特に、AIの学習データとしてコーパスを利用することで、より自然で精度の高い言語処理が実現されている。コーパスは、その収集目的や対象言語、データの種類によって多様な種類が存在する。例えば、特定の専門分野のテキストを集めた専門コーパスや、学習者の言語使用を集めた学習者コーパスなどがあり、それぞれの研究目的に応じて選択される。また、近年ではインターネット上の膨大なテキストデータを活用したウェブコーパスも注目されており、これらのデータはAIの言語モデルの訓練において重要な役割を担っている。コーパスの構築には、テキストの収集だけでなく、品詞タグ付けや構文解析などのアノテーション作業が必要となる。これらの作業は、言語データの質を高め、より精緻な分析を可能にするために欠かせない。さらに、コーパスの公開や共有により、研究者間でのデータの再利用が促進され、言語研究の発展に寄与している。
サンプリング・バイアス: サンプリングバイアスは、データ収集や分析の過程で生じる偏りの一種で、特定の方法や手順によってデータが母集団全体を正確に反映しない状況を指す。この偏りは、AIのデータ収集、加工、分析、学習の各段階で発生し得る。データ収集時に、特定の属性や条件を持つデータのみを選択すると、サンプリングバイアスが生じる。例えば、ある地域や年齢層に偏ったデータを収集すると、その結果は全体を代表しない可能性が高まる。このような偏りは、AIモデルの学習においても影響を及ぼし、モデルの予測精度や一般化能力を低下させる要因となる。データの加工や分析の段階でも、サンプリングバイアスは問題となる。例えば、データの前処理で特定のデータを除外したり、分析手法の選択によって偏りが生じることがある。これにより、分析結果が実際の状況を正確に反映しないリスクが高まる。AIモデルの学習において、サンプリングバイアスはモデルの性能に直接的な影響を与える。偏ったデータで学習したモデルは、未知のデータに対する予測精度が低下し、実運用での信頼性が損なわれる可能性がある。そのため、データ収集から学習までの全プロセスで、サンプリングバイアスを最小限に抑える取り組みが求められる。
データリーケージ: データリーケージとは、機械学習モデルの訓練時に、本来予測時には利用できない情報が含まれてしまう現象を指す。これにより、モデルの性能が過大評価され、実際の運用環境では期待通りの精度を発揮できない問題が生じる。例えば、将来の情報や目的変数に直接関連する特徴量が訓練データに含まれている場合、モデルはその情報を利用して高い精度を示すが、実際の予測時にはその情報が得られないため、性能が大幅に低下する。このような状況は、データの収集や前処理の段階で注意を払わないと発生しやすい。データリーケージを防ぐためには、訓練データとテストデータの適切な分割や、特徴量選択の際に未来の情報や目的変数に関連するデータを除外することが重要である。また、時系列データを扱う場合には、時間的順序を考慮したデータ分割を行い、未来の情報が訓練データに含まれないようにする必要がある。
転移学習: 転移学習は、あるタスクで学習したモデルや知識を別の関連するタスクに適用する機械学習の手法である。これにより、新たなタスクにおいて少量のデータや限られた計算資源でも高精度なモデルの構築が可能となる。例えば、画像認識分野では、一般的な画像データで事前に学習したモデルを特定の医療画像診断に応用することで、少ない医療データでも高い診断精度を実現できる。この手法は、データ収集やラベル付けが困難な分野で特に有効であり、既存の知識を活用して新たな課題に迅速に対応することが可能となる。ただし、転移学習を適用する際には、元のタスクと新たなタスクの類似性やデータ分布の違いに注意を払う必要がある。適切なモデル選択や微調整を行わないと、性能が低下する「負の転移」が発生する可能性があるため、慎重な検討が求められる。

カテゴリー: G検定

タグ: G検定

【G検定まとめ2026】36.データの収集・加工・分析・学習

1. AIの学習対象となるデータを取得・利用するときに注意すべきことを理解する

データの適切性

データの偏り

データの網羅性

個人情報の取り扱い

2. 集めたデータを加工・分析・学習させるときの注意点を理解する

データの加工

データの分析と学習環境の準備

AIモデルの学習と評価

3. データを共有しながら共同開発を進める場合の留意点を理解する

オープンデータセットの利用と注意点

データ収集方法の選択

データの偏りへの対応

個人情報の取り扱い

開発環境の一貫性の確保

キーワード解説

【G検定まとめ2026】35.AIプロジェクトの進め方New!!

【G検定まとめ2026】37.AIに必要な数理・統計知識New!!