📝 試験項目
  • 安全性に関する論点の所在と代表的な事例を理解している
  • セキュリティ上の課題としてどのような攻撃等が存在しているのか理解している
  • 安全性やセキュリティの課題への対応手段を理解している
🏷️ 主要キーワード
#Adversarial Attack (Adversarial Examples)#セキュリティ・バイ・デザイン#データ汚染#データ窃取#モデル窃取#モデル汚染 ---

1. 安全性に関する論点の所在と代表的な事例を理解している

💡 ポイント
  • AIの安全性は、利用者や第三者への危害防止を指し、生活への浸透に伴いその重要性が増している。
  • 安全性と有効性のバランスは用途に応じて適切に取る必要があり、例えばがん診断AIでは見逃し防止が重要となる。
  • 安全性確保には基準遵守、適切な情報開示、人間の関与などのアプローチがあり、顔認識や自動運転、医療診断での事例から学ぶべき点が多い。

AIの安全性は、AIの利用によって人々の生命、身体、財産に悪影響が及ばないようにすることを指します。私たちの日常生活でAIの活用が広がるにつれ、その安全性の確保はますます重要になっています。

安全性と有効性のバランス

AIの安全性を考える際には、有効性とのバランスを取ることが大切です。有効性は、AIが与えられた課題に対して適切に判断できる能力を指します。例えば、がん診断用のAIを考えてみましょう。全体的な診断の正確さを上げることも大切ですが、安全性の観点からは、がんの見落としを減らすことがより重要かもしれません。このように、AIの用途に応じて安全性と有効性のバランスを適切に調整することが求められます。

安全性確保のための方法

AIの安全性を高めるためのいくつかの重要な方法があります。まず、安全性基準の遵守が挙げられます。特定の分野では、すでに安全性に関する基準が存在することがあります。そのような基準がある場合は、それに従うことが重要です。次に、適切な情報開示が大切です。AIの能力や限界について適切に情報を開示し、注意を促すことが必要です。これは、人々がAIの判断を過信してしまうことで起こる可能性のある事故を防ぐためです。さらに、人間の関与も重要な方法です。AIの判断に対して人間が確認や修正を行うことで、安全性を高めることができます。ただし、人間の関与の方法は慎重に選ぶ必要があります。

代表的な事例

AIの安全性に関する問題は、実際にさまざまな形で起こっています。以下は代表的な事例です。

事例 概要 示唆される問題
顔認識システムの誤認識 顔認識AIで、性別や肌の色によって認識率に差が生じ、誤認逮捕につながった事例がある AIの学習データや設計に偏りがある可能性
自動運転車の事故 自動運転技術の開発段階で、歩行者との衝突事故が起きた事例がある AIの判断能力の限界や、予期せぬ状況への対応の難しさ
医療診断の誤り 医療分野でのAI利用において、誤診や見落としが報告されている AIの判断を過信せず、人間の専門家による確認の重要性

2. セキュリティ上の課題としてどのような攻撃等が存在しているのか理解している

💡 ポイント
  • データ汚染攻撃は、意図的に操作されたデータを学習用データセットに混入させ、AIモデルの動作を望ましくない方向に誘導する攻撃手法である。
  • 敵対的事例攻撃は、人間には気づかない微細な変更を入力データに加え、モデルの出力を大きく変化させる手法で、特に自動運転車などのAIシステムに深刻な脅威となり得る。
  • モデル推測攻撃は、多数の入力と出力の観察を通じてモデルの内部構造や学習データを推測しようとする攻撃であり、知的財産の漏洩や個人情報の推測リスクがある。
攻撃名 対象段階 概要 典型例 対策の方向性
データ汚染攻撃 学習段階 操作されたデータを学習データに混入させ動作を歪める 画像認識データに細工画像を混入 学習データの品質管理・サプライチェーン信頼性確保
敵対的事例攻撃 推論段階 微小なノイズで入力を改変し誤分類を誘発 道路標識への微小ノイズで誤認識 敵対的トレーニング・入力前処理・アンサンブル学習
モデル推測攻撃 / モデル窃取 推論・運用段階 多数の入出力観察でモデル構造・学習データを推測または複製 API経由で同等モデルを再構成 アクセス制御・レート制限・出力ノイズ
モデル汚染攻撃 (バックドア) 配布・学習段階 細工されたモデルを配布し特定条件で誤作動させる 事前学習モデルへのバックドア仕込み モデル来歴の検証・配布元の信頼性確認
データ窃取 運用段階 学習データや個人情報を不正に取得する 学習データセットへの不正アクセス 匿名化・暗号化・アクセス制御

注: AI特有の攻撃は学習・推論・配布の各段階で発生し、対策は多層的なアプローチが求められる。

表1 AIへの主な攻撃 (Adversarial・データ汚染・モデル窃取等)

データ汚染攻撃

データ汚染攻撃は、AIモデルの学習過程を標的とします。攻撃者は、意図的に操作したデータを学習用データセットに混入させ、モデルの動作を望ましくない方向に導きます。この攻撃は、モデルの初期学習時や追加学習時に行われる可能性があります。例えば、画像認識モデルの学習データに細工された画像を混ぜることで、特定の対象を誤って分類するようモデルを操作することができます。その結果、一見正常に見えるモデルでも、特定の入力に対して意図的に誤った出力を生成する可能性があります。

敵対的事例攻撃

敵対的事例攻撃は、AIモデルの推論段階を狙います。この手法では、人間には気づきにくい微細な変更を入力データに加えることで、モデルの出力を大きく変化させます。代表的な例として、交通標識の画像認識システムへの攻撃があります。道路標識に人間の目では気づかないようなノイズを加えることで、AIシステムに全く異なる標識として認識させることができます。この種の攻撃は、自動運転車などのAIを活用したシステムにとって重大な脅威となる可能性があります。

敵対的サンプルの仕組み元画像に微小ノイズを加えると、人間の目には変化なしでもAIの分類結果が大きく変わる敵対的サンプルの概念図。図1 敵対的サンプルの仕組みSTOP元画像(道路標識「停止」)+微小ノイズ(人間には不可視)=STOP敵対的サンプル(人間には同じに見える)AIモデル(画像分類器)ブラックボックス元画像 → AI出力:「停止」 (信頼度 99%)正しい分類敵対的サンプル → AI出力:「速度制限」 (信頼度 95%)誤分類 (攻撃成功)注: 信頼度の数値は概念例画像認識・音声・NLPで報告対策: 敵対的トレーニング入力前処理・アンサンブル学習注: 人間にはほぼ識別できない変化でも、AIの判断は大きく変わる
図1 敵対的サンプルの仕組み

モデル推測攻撃

モデル推測攻撃は、AIモデルの構造や学習データを推測しようとする攻撃です。攻撃者は多数の入力を用意し、それに対する出力を観察することで、モデルの内部構造や使用された学習データに関する情報を抽出しようとします。この攻撃が成功すると、モデルの知的財産が漏洩するだけでなく、より効果的な敵対的事例攻撃を可能にする情報を攻撃者に与えてしまう可能性があります。さらに、学習データに含まれていた機密情報や個人情報が推測される危険性もあります。

モデル汚染攻撃

モデル汚染攻撃は、悪意のある動作を組み込んだAIモデルを配布する攻撃です。攻撃者は正常に見えるモデルに細工を施し、特定の条件下で意図的に誤った出力を生成するよう操作します。例えば、画像生成AIに細工を加え、特定のキーワードが入力された際に不適切な画像を生成するよう仕向けることができます。この攻撃は、オープンソースのAIモデルや事前学習済みモデルを利用する際に特に注意が必要です。

3. 安全性やセキュリティの課題への対応手段を理解している

💡 ポイント
  • AIの安全性とは、利用者や第三者への危害を防ぐことであり、精度向上だけでなく影響を考慮することが重要である。医療分野では見逃しリスクの最小化が求められ、適切な注意喚起や情報開示も不可欠となる。
  • AIのセキュリティには、データ汚染攻撃や敵対的事例など特有のリスクがある。これらに対しては、データ品質管理やモデルの堅牢性向上など多層的な対策が必要となる。
  • 安全性とセキュリティ確保には組織全体での取り組みが重要である。リスク評価、目標設定、人間の関与、モニタリング、フィードバック体制の構築などを通じて、信頼できるAIシステムの開発・運用を実現できる。

AIの安全性とセキュリティを確保するためには、組織全体で取り組む必要があります。具体的には以下のような対応が考えられます。

対応策 説明
リスク評価 AIシステムが組織や利用者、社会にもたらす可能性のあるリスクを特定し、評価します。
目標設定 安全性とセキュリティに関する具体的な目標を設定し、それを達成するための手順を定めます。
人間の関与 AIの判断に対して適切な人間の監視や介入を行います。
モニタリング デプロイ後のAIシステムの動作を継続的に監視し、問題がないか確認します。
フィードバック体制 ユーザーや社会からのフィードバックを受け付け、それを開発や運用に反映させる仕組みを作ります。
多様性の確保 開発チームやガバナンスチームに多様な背景や専門性を持つメンバーを含めることで、多角的な視点からの検討を可能にします。
教育 関係する従業員に対して、AIの安全性とセキュリティに関する適切な教育を行います。
文書化 安全性とセキュリティに関する取り組みを適切に文書化し、必要な時にアクセスできるようにします。

キーワード解説

Adversarial Attack (Adversarial Examples)
AIの活用が進む中で、安全性とセキュリティの観点から「敵対的攻撃(Adversarial Attack)」や「敵対的サンプル(Adversarial Examples)」が注目されている。これらは、AIモデルに対して意図的に微小なノイズや変化を加えることで、モデルの予測や判断を誤らせる手法を指す。例えば、画像認識システムに対して人間の目にはほとんど識別できない程度のノイズを加えることで、AIが全く異なる対象として認識してしまうことがある。このような攻撃は、AIシステムの信頼性や安全性に深刻な影響を及ぼす可能性がある。敵対的攻撃は、画像分類だけでなく、音声認識や自然言語処理など、さまざまなAI応用分野で確認されている。例えば、音声認識システムに対して人間には聞き取れない微細な変化を加えることで、AIが誤った命令を認識するケースも報告されている。これらの攻撃は、AIシステムの脆弱性を突くものであり、セキュリティ上の重大な課題となっている。このような脅威に対処するためには、AIモデルの頑健性を高める取り組みが求められる。具体的には、敵対的サンプルを含むデータでモデルを訓練する「敵対的トレーニング」や、入力データの前処理、複数のモデルを組み合わせる「アンサンブル学習」などの手法が検討されている。これらの対策を講じることで、AIシステムの安全性と信頼性を向上させることが期待されている。
セキュリティ・バイ・デザイン
セキュリティ・バイ・デザイン(Security by Design)は、システムやソフトウェアの開発において、初期の企画・設計段階からセキュリティ対策を組み込むアプローチを指す。従来、セキュリティ対策は開発の後半や運用段階で追加されることが多かったが、この方法では脆弱性が残る可能性が高く、修正には多大なコストと時間がかかる。セキュリティ・バイ・デザインの考え方では、開発の初期からセキュリティ要件を明確にし、設計や実装に反映させることで、より堅牢なシステムを構築することが可能となる。このアプローチは、サイバー攻撃の多様化や高度化が進む現代において、システムの安全性を確保するために不可欠とされている。例えば、内閣官房情報セキュリティセンター(NISC)は、2011年頃から「情報セキュリティを企画・設計段階から確保するための方策」としてセキュリティ・バイ・デザインを提唱しており、これにより日本国内での認知が広がった。AIシステムにおいても、セキュリティ・バイ・デザインの適用は重要である。AIは大量のデータを処理し、学習する特性を持つため、データの整合性やプライバシー保護が求められる。開発初期からセキュリティ対策を組み込むことで、データの改ざんや不正アクセスを防ぎ、信頼性の高いAIシステムを実現することができる。また、AIモデルのトレーニング時にバイアスが含まれないようにするためにも、セキュリティ・バイ・デザインの考え方が有効である。さらに、セキュリティ・バイ・デザインの実践により、開発工程における手戻りを減らし、コスト削減や納期遵守にも寄与する。IPA(情報処理推進機構)の報告によれば、設計時のセキュリティ対策コストを1とした場合、運用時の対策コストは100倍になるとされており、初期段階でのセキュリティ対策の重要性が示されている。
データ汚染
データ汚染は、学習データに意図的または偶発的に不正確な情報や悪意のあるデータが含まれることで、AIモデルの性能や信頼性が損なわれる現象を指す。特に、攻撃者が細工したデータを学習データに注入し、AIの推論結果を操る手法は「学習データ汚染」と呼ばれる。学習データ汚染には主に二つのタイプが存在する。一つは、特定の入力データを攻撃者の意図したクラスに誤分類させる「標的型汚染」であり、もう一つは、可能な限り多くの誤分類を誘発させる「非標的型汚染」である。前者はAIにバックドアを設置することを目的とし、後者はAIのサービス拒否(DoS)を引き起こすことを狙っている。このようなデータ汚染は、AIシステムのセキュリティリスクを高める要因となる。例えば、攻撃者が学習データに不正データを混入させることで、AIの性能劣化や誤分類を誘発する「データポイズニング(中毒)攻撃」が知られている。また、巧妙に細工された不正データを学習させ、特定の入力データが狙い通りのクラスへ誤分類されるように仕組む攻撃は「バックドア」と呼ばれる。AIの安全性とセキュリティを確保するためには、学習データの品質管理が不可欠である。データの収集・流通プロセス(サプライチェーン)の信頼性を確保し、学習データセットに不備や偏りがないかを検証することが求められる。また、AIの品質評価技術や品質向上技術とともに、ガイドラインや標準規格の整備も重要である。さらに、AIのセキュリティリスクには、AIシステムが攻撃を受けることによって生じるリスクと、AIシステムが悪用・誤用されることによって生じるリスクの大きく二つに分けられる。特に、生成AIの性能向上により、AIの誤動作や偏りの原因を突き止めたり、修復したりすることがますます難しくなっている。
データ窃取
データ窃取とは、許可なく機密情報や個人データを不正に取得する行為を指し、AIシステムの開発や運用において、これらのデータが不正にアクセスされるリスクが存在する。特に、AIモデルの学習に使用される大量のデータには、個人情報や企業の機密情報が含まれることが多く、これらが漏洩した場合、プライバシー侵害や企業の競争力低下など深刻な影響を及ぼす可能性がある。さらに、AIシステム自体が攻撃の対象となるケースも増加している。例えば、AIモデルに対する「逆向き攻撃」では、攻撃者が特定の入力を用いてモデルの出力を操作し、誤った判断を引き起こすことが可能である。また、学習データセットに不正なデータを混入させる「データポイズニング攻撃」により、AIモデルの性能を低下させる手法も報告されている。これらの攻撃は、AIシステムの信頼性を損なうだけでなく、最終的にはユーザーや社会全体に悪影響を及ぼす。AIの安全な活用を実現するためには、データの収集からモデルの開発、運用に至るまで、各段階で適切なセキュリティ対策を講じることが不可欠である。具体的には、データの匿名化や暗号化、アクセス制御の強化、AIモデルの脆弱性評価など、多角的なアプローチが求められる。また、AIシステムの開発者や運用者は、最新のセキュリティ動向を常に把握し、適切な対策を継続的に実施する責任がある。
モデル窃取
モデル窃取とは、攻撃者が機械学習モデルの内部構造やパラメータを不正に取得し、同等の性能を持つモデルを再現する行為を指す。これにより、知的財産の侵害や、モデルの悪用といったリスクが生じる。モデル窃取の手法として、攻撃者はターゲットとなるモデルに大量の入力データを送り、その出力結果を収集する。この入出力ペアを用いて、自身のモデルを訓練し、元のモデルに近い性能を持つコピーを作成する。このような攻撃は、API経由でモデルが提供されている場合に特に脅威となる。モデル窃取が成功すると、攻撃者は高価な開発コストをかけずに高性能なモデルを手に入れることができる。さらに、窃取されたモデルを用いて悪意のある目的で利用されたり、元のモデルの脆弱性を探るための手段として悪用される可能性もある。このようなリスクを軽減するためには、モデルへのアクセス制御を強化し、APIの利用においても適切な認証やレート制限を設けることが求められる。また、モデルの出力にノイズを加えるなどの防御策も検討されている。これらの対策を講じることで、モデル窃取による被害を最小限に抑えることが可能となる。
モデル汚染
AIモデルの学習過程において、意図的に不正なデータを組み込むことでモデルの挙動を操作する手法が「モデル汚染」と呼ばれる。この手法では、攻撃者が細工したデータを学習データに注入し、モデルに学習させることで、特定の入力に対して誤った出力を生成させることが可能となる。例えば、顔認識システムにおいて、特定の人物の画像を他の人物として誤認識させるような攻撃が考えられる。モデル汚染には主に二つのタイプが存在する。一つは「標的型汚染」で、特定の入力に対して意図的な誤分類を引き起こすことを目的とする。もう一つは「非標的型汚染」で、モデル全体の性能を低下させることを狙い、多数の誤分類を誘発する。これらの攻撃は、AIシステムの信頼性や安全性を損なう重大なリスクとなる。モデル汚染の防止には、学習データの信頼性を確保することが不可欠である。データの収集元や内容を厳密に検証し、不正なデータの混入を防ぐ対策が求められる。また、モデルの学習過程や出力結果を監視し、異常な挙動を早期に検知する仕組みの導入も重要である。