G検定の要点をシラバスから抜粋してまとめました。
これから学習する方も、復習したい方にもお使いいただけます。
試験当日用のG検定のカンニングペーパー参考としてもお役立てください。
試験結果を保証するものではありませんので、試験の際は自己責任でご使用ください。
項目の修正・追加などのご要望はお問い合わせフォームからまたはX(旧Twitter)からご連絡をお願いします。

(最終更新日:2024年6月1日)

読み上げ動画

【G検定まとめ2024】YouTube動画リスト(講義編)

問題編はこちら 関連記事【G検定2023】G検定の概要と試験のポイント 2023年1月25日 【G検定】G検定合格体験記 〜学習方法と受験体験〜 2023年1月23日 【G検定2…

学習のおすすめ書籍(参考)

筆者が実際に学習した書籍を紹介します。

教科書として使用する書籍

体系的に知識を整理することができます。

まずは、この1冊を読んでG検定の学習を進めましょう。

検索機能が使用できるので、Kindle版が特におすすめです。

深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版

問題集として使用する書籍

ある程度学習が進んだら、本番を意識して問題集に取り組みましょう。

本番の試験環境を意識して、このページ「要点整理&当日用カンペ」を使用しながら解答してみましょう。

徹底攻略ディープラーニングG検定ジェネラリスト問題集 第2版 徹底攻略シリーズ

最短突破 ディープラーニングG検定(ジェネラリスト) 問題集

★このページの使い方

①キーワードの検索にページ内検索機能をご活用ください(mac:command+F、windows:ctrl+F)
Macの場合は、キーボードの「command」キー(⌘)と「F」キーを同時に押します。Windowsの場合は、「Ctrl」キーと「F」キーを同時に押します。そうすると、画面の上部または下部に小さな検索ボックスが表示されます。そのボックスに見つけたい単語やフレーズを入力すると、その単語やフレーズが文書内でどこにあるかを示してくれます。そして、その単語やフレーズが画面上でハイライト表示されるので、簡単に見つけることができます。

②配色は重要度に応じて以下のように使い分けをしています
メインキーワード(必ず覚える)
関連キーワード(余裕があれば覚える)
シラバスにないキーワード(参考)

③一部の項目には詳細や実装に関するリンクがあります
 🔗マークがある項目は詳細説明のページに移動することができます。

試験項目

1.人工知能とは
 1.1. 人工知能の定義
 1.2. 人工知能研究の歴史

2.人工知能をめぐる動向
 2.1. 探索・推論
 2.2. 知識表現
 2.3. 機械学習・深層学習

3.人工知能分野の問題
 3.1. 人工知能分野の問題

4.機械学習の具体的手法
 4.1. 教師あり学習
 4.2. 教師なし学習
 4.3. 強化学習
 4.4. モデルの評価

5.ディープラーニングの概要
 5.1. ニューラルネットワークとディープラーニング
 5.2. ディープラーニングのアプローチ
 5.3. ディープラーニングを実現するには
 5.4. 活性化関数
 5.5. 学習の最適化
 5.6. 更なるテクニック

6.ディープラーニングの手法
 6.1. 畳み込みニューラルネットワーク(CNN)
 6.2. 深層生成モデル
 6.3. 画像認識分野
 6.3.1. 物体(画像)識別タスク
 6.3.2. 物体検出タスク
 6.3.3. セグメンテーションタスク
 6.3.4. 姿勢推定タスク
 6.4. 音声処理と自然言語処理分野
 6.4.1. 音声認識
 6.4.2. 自然言語処理(Natural Language Processing)
 6.5. 深層強化学習分野
 6.6. モデルの解釈性とその対応
 6.7. モデルの軽量化

7.ディープラーニングの社会実装に向けて
 7.1. AIと社会
 7.2. AIプロジェクトの進め方
 7.3. データの加工・分析・学習
 7.4. 実装・運用・評価
 7.5. クライシス・マネジメント

8.数理・統計

9.最新技術・時事ネタ(Generative AI Testを含む)
 9.1. 生成AIの技術
 9.2. 生成AIの利活用
 9.3. 生成AIのリスク

10.関連情報(シラバス外)
 10.1. 単語集
 10.2. 技術用語
 10.3. AI関連の国際会議・学会
 10.4. 自動運転
 10.5. ドローン
 10.6. ロボティクス

1. 人工知能とは

1.1 人工知能の定義

キーワード
人工知能とは何か、人工知能のおおまかな分類、AI 効果、人工知能とロ ボットの違い、推論、認識、判断、エージェント、古典的な人工知能、機械学習、ディープラーニング

人工知能とは何か🔗
計算機による知的な情報処理システムの設計や実現に関する研究分野であり、コンピュータを使って学習・推論・認識・判断など人間と同じ知的な処理能力を持つシステム。「知性」や「知能」自体の定義がないため、人工知能の具体的な定義は専門家の間でも未だに無い。同じシステムであっても、それを人工知能だと主張する人と人工知能ではないと考える人がいる。「人間と同じ知的な処理能力を持つ機械(情報処理システム)」という表現をすれば、「人間と同じ知的な処理能力」という部分の解釈が人によって異なる可能性がある。
AIの始まりはエニアック登場の10年後に1956年ダートマス会議で初めて提唱されたことによる。アーサー・サミュエルは機械学習を「明示的にプログラムしなくても学習する能力をコンピュータに与える研究分野」と定義している。

人工知能のおおまかな分類 🔗

レベル1 シンプルな制御プログラム 全ての振る舞いがあらかじめ決められている。ルールベースで動く
レベル2 古典的な人工知能 探索・推論、知識データを利用して状況に応じて複雑な振る舞いをする
レベル3 機械学習を入れた人工知能 非常に多くのサンプルデータから入出力関係を学習
レベル4 ディープラーニングを入れた人工知能 特徴量による学習が行われる。このレベルでは、非常に高度な認識や判断能力を持ち、複雑なタスクに対応できる

AI効果
AI効果は、人工知能技術によって新たな成果が生み出されると、その原理が解明された瞬間、人々が「それは単なる自動化であり、真の知能とは関係ない」と考える心理的な現象である。この効果は、AIの進歩に伴ってその本質的な価値を過小評価する傾向が生じることを示している。技術の成果が当たり前になることで、人々はその重要性を見過ごしやすくなり、その結果、AIのさらなる発展の可能性に対する認識が狭まることがある。この心理的な効果に注意し、AI技術の真価を正確に評価することが重要

人工知能とロボットの違い
ロボットの脳に当たる部分が人工知能。脳以外の部分を研究対象としているロボットの研究者は人工知能の研究者ではない。人工知能の研究は脳だけを対象としているわけではなく、知的な処理能力や意思決定、学習など(知的な処理有力)目に見えないものを扱う。

エージェント
エージェントは、プログラムやメカニズムの一種で、あらかじめ定義された目標を達成することを目的として設計されている。自律的に環境を認識し、その状況に応じて適切な行動を選択する能力を持っている。また、学習機能を備えたエージェントは、経験を通じて行動戦略を改善し、より効果的な結果を得ることができる。

古典的な人工知能
古典的な人工知能は、入力と出力の関係を明確に定義し、状況に応じて適切な出力を生成するアプローチを採用している。掃除ロボットや診断プログラムなど、入力と出力の組み合わせが膨大な場合でも、この方法が適用される。古典的な人工知能は、アルゴリズムやルールベースのシステムに依存し、その基礎となる知識を明示的にコード化することで、問題解決能力を実現している。しかし、このアプローチは固定的であるため、柔軟性や適応性に欠ける場合がある。近年の人工知能技術の進化に伴い、ディープラーニングやニューラルネットワークなどの新たな手法が登場しており、従来の古典的な人工知能とは異なるアプローチで問題解決を試みている。

機械学習
学習により自動で改善するコンピューターアルゴリズムもしくはその研究領域。データが持つ特徴(構造やパターン)を学習しており、パターン認識という古くからの研究をベースにしている。

ディープラーニング
ディープニューラルネットワークを用いて学習を行うアルゴリズムで機械学習に含まれる。ディープラーニングを取り入れた人工知能は、学習対象となるデータの特徴量を自動的に学習する。画像認識、音声認識、自動翻訳など、従来のコンピュータでは実現するのが難しいとされてきた分野での応用が進んでいる。ディープラーニングは従来の機械学習と異なり、特徴量そのものを学習するため、入力の良い内部表現を得ることができるようになった。

1.2 人工知能研究の歴史

キーワード
世界初の汎用コンピュータ、ダートマス会議、人工知能研究のブームと冬の時代、エニアック (ENIAC)、ロジック・セオリスト、トイ・プロブレム、エキスパートシステム、第五世代コンピュータ、ビッグデータ、機械学習、特徴量、ディープラーニング、推論・探索の時代、知識の時代、機械学習と特徴表現学習の時代、ディープブルー

世界初の汎用コンピュータ
1946年、アメリカのペンシルバニア大学で発明された世界初の汎用電子式コンピュータをエニアック(ENIAC)という。

エニアック( ENIAC )
エニアック(ENIAC)は、アメリカで開発された世界初の汎用コンピュータであり、エレクトロニクス技術の高速性と複雑な問題解決能力を兼ね備えていた。プログラミング可能な機能を初めて持つ計算機として、科学技術や軍事などの分野で幅広く利用されることとなった。エニアックは、現代のコンピュータ技術の基礎を築く画期的な発明であった。その革新的な性能により、従来の計算機では困難であった複雑な問題の解決が可能となり、情報処理技術の進化を促進した。

ダートマス会議
エニアック誕生の10年後の1956年の7月から8月にかけて開催された、人工知能という学術研究分野を確立した会議の通称である。この会議において初めてAI(Artificial Intelligence)という用語を用いたとされる。
ジョン・マッカーシーが主催しており、他の参加者はマーヴィン・ミンスキー、ジョン・マッカーシー、アレン・ニューウェル、ハーバート・サイモン、クロード・シャノン(情報理論の父と呼ばれる)。
ニューウェルとサイモンは世界初の人工知能プログラムといわれるロジック・セオリストをデモンストレーションしており、コンピュータを用いて数学の定理を自動的に証明することが実現可能であることを示す。さらに知的に行動したり思考したりするコンピュータ・プログラムの実現可能性について議論された。

ロジック・セオリスト
ロジック・セオリストは、数学の定理を自動的に証明することが可能であることを示したプログラムで、「世界初の人工知能プログラム」とされている。アレン・ニューウェルとハーバート・A・サイモンが開発し、デモンストレーションを行った。人間のような推論能力をコンピュータ上で実現することを目指しており、機械による知的な問題解決の可能性を示した画期的な成果であった。このプログラムは、人工知能研究の歴史において重要な位置を占めており、その後のAI技術の発展や自動定理証明システムの研究に大きな影響を与えている。

人工知能研究のブームと冬の時代

第1次AIブーム ⇨ 推論・探索の時代:1950年代後半~1960年代トイ・プロブレム:コンピュータによる「推論」や「探索」 の研究が進み、特定の問題に対して解を提示できるようになった。迷路や数学の定理の証明のような簡単な問題(トイ・プロブレム)は解けても現実の問題は解けないことが明らかになり、1970年代には人工知能研究は冬の時代を迎える。
第2次AIブーム
知識の時代:1980年代エキスパートシステム:データベースに大量の専門知識を溜め込んだ実用的なシステム。日本では政府によって「第五世代コンピュータ」と名付けられた大型プロジェクトが推進された。しかし、知識を蓄積・管理することの大変さが明らかになってくると、1995年ごろからAIは冬の時代を迎える。
第2次AIブームの主役である知識表現は、現在も重要な研究対象になっている。
第3次AIブーム
機械学習・特徴表現学習の時代:2010年~ディープラーニング(深層学習):ビッグデータを用いることで人工知能が自ら知識を獲得する機械学習が実用化。特徴量を人工知能が自ら習得するディープラーニング(深層学習)が登場。
第3次AIブームの主役である機械学習(ニューラルネット)も、本質的な提案は第1次AIブームの時に既に出ていた。

トイ・プロブレム
トイ・プロブレム(おもちゃの問題)とは、おもちゃのように簡単な問題という意味ではなくコンピュータで扱えるように本質を損なわない程度に問題を簡略化した問題のことで、トイ・プロブレムを用いることで問題の本質を理解したり現実世界の問題に取り組んだりする練習ができるようになる。
コンピュータによる「推論」や「探索」 の研究が進み、特定の問題に対して解を提示できるようになった。迷路や数学の定理の証明のような簡単な問題は解けても、現実の問題は解けないことが明らかになり、1970年代には人工知能研究は冬の時代を迎える。

エキスパートシステム
データベースに大量の専門知識を溜め込んだ実用的なシステム。日本では、政府によって「第五世代コンピュータ」と名付けられた大型プロジェクトが推進され、エキスパートシステムの開発が盛んに行われた。しかし、知識を蓄積・管理することの大変さが明らかになってくると、1995年ごろからAIは冬の時代を迎える。専門家の知識を活用して問題解決を図るためのアプローチであり、多くの産業や分野で応用が試みられた。その後の技術革新やデータ処理能力の向上により、エキスパートシステムは再び注目され、知識ベースの構築や管理方法の改善が進められている。

第五世代コンピュータ
人工知能コンピュータの開発を目標にした、通商産業省所管の新世代コンピュータ技術開発機構が1982年から1992年にかけて進めた国家プロジェクトの計画名称で、人工知能コンピュータの開発を主目標としていた。このプロジェクトでは、エキスパートシステムや自然言語処理、並列処理技術など、当時の最先端技術を取り入れたコンピュータの研究・開発が行われた。第五世代コンピュータは、人間の知的能力を模倣し、高度な問題解決や推論を行うことを目指しており、多くの期待が寄せられていた。

ビッグデータ
一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合。このようなデータは、インターネットの普及やスマートフォンの登場、センサー技術の発展などにより急速に増えており、現代社会において重要な情報資源となっている。ビッグデータを効果的に分析・活用することで、ビジネスや研究、政策立案など様々な分野で新たな知見や価値が生み出される。そのため、ビッグデータ解析技術やデータマイニング、機械学習などの人工知能技術が注目され、データサイエンティストの役割も重要視されている。しかし、ビッグデータの利用には、プライバシーやデータセキュリティ、倫理的な問題も関連しており、適切な取り扱いが求められている。

特徴量
分析すべきデータや対象物の特徴・特性を、定量的に表した数値であり、機械学習やデータ解析の分野で重要な役割を果たしている。特徴量の選択や抽出は、データ解析の質を大きく左右するため、適切な特徴量を選ぶことが極めて重要である。良い特徴量は、データのパターンや構造を効果的に捉え、学習アルゴリズムが予測や分類を正確に行えるようにする。特徴量エンジニアリングとは、適切な特徴量を見つけ出し、データ解析に活かすための一連のプロセスであり、ドメイン知識や統計学、機械学習技術が活用される。

ディープブルー
IBMが1989年より開発したチェス専用のスーパーコンピュータ。ディープ・ソートを破った当時チェスの世界チャンピオンだった、ガルリ・カスパロフを打ち負かすことを目標とした。1997年にIBMが開発した人工知能でチェスの世界チャンピオンを破った。ディープブルーは主に全幅探索アプローチが用いられており、圧倒的な計算能力に物を言わせて勝利したといえる。

2. 人工知能をめぐる動向

キーワード
探索木、ハノイの塔、ロボットの行動計画、ボードゲーム、モンテカルロ法、法幅優先探索、深さ優先探索、プランニング、STRIPS、SHRDLU、アルファ碁 (AlphaGo)、ヒューリスティックな知識、MiniMax 法、αβ 法、ブルートフォース

2.1 探索・推論

探索木
計算機科学において特定のキーを特定するために使用される木構造のことで、学習結果を木構造で表現できるため解釈性が高い。場合分けを続けていけばいつか目的の条件に合致するという考え方に基づく。不純度が最も減少(情報利得が最も増加)するようにデータを振り分けることを繰り返す。不純度とはクラスの混ざり具合を表す指標でジニ係数やエントロピーがある。バギングを組み合わせた手法をランダムフォレストという。探索方法は大別すると以下の通りとなる。

幅優先探索 深さ優先探索
出発点に近いノード(探索木の各要素)順に検索する。出発点から遠いノードほど検索は後回しになる。最短距離でゴールにたどり着く解を見つけることができる
探索の途中で立ち寄ったノードをすべて記憶しておく必要がありメモリが多く必要となる。
深さ優先探索は、一つのノードから可能な限り深く探索を進め、行き止まりに達したら一つ前のノードに戻って再度探索を行う手法である。この方法は、メモリの使用量が少なくて済むが、必ずしも最短距離でゴールに到達するわけではない。運に左右される要素も含まれている。また、「縦型探索」とも称される。

ハノイの塔
円盤と3本のポールを用いたパズルの一種である。「1回に動かせる円盤の枚数は1枚のみ」「小さな円盤の上に大きな円盤を乗せることはできない」というルールに従って、全ての円を右端に移動させる。このパズルは、再帰的なアルゴリズムやプログラミングの教材としてよく用いられ、計算機科学や人工知能の分野でも重要な役割を果たしている。円盤の枚数がn枚である時、最小の手数は「(2^ n)ー 1」回であることが知られており、この性質を利用して様々な問題解決アプローチや最適化手法を学ぶことができる。

ロボットの行動計画(プランニング)⇨
ロボットの行動計画において、ロボットの目標達成のために必要な行動を作成する技術のこと。エージェントに与えられた目標を達成するために必要な行動の系列を探索により自動作成することとも言える。あらゆる状態「前提条件」について、「行動」と「結果」を記述しておけば目標とする状態に至る行動計画を立てることができる。プランニング技術は、自動化システムやロボット工学、知的エージェントなど様々な分野で応用されており、経路探索、資源配分、スケジューリングなどの問題解決に役立っている。

STRIPS(Stanford Research Institute Problem Solver)
1970年代に提案された「前提条件」・「行動」・「結果」の3つの組み合わせで記述するプランニングの手法。この手法では、状況における前提条件と目標状態を定義し、それらの間にある行動を決定することで、エージェントが目標を達成するための適切な行動計画を立てることができる。

SHRDLU
1968年から1970年にかけて、テリー・ウィノグラードによって実施されたプロジェクトプランニングを実現する研究。英語による指示を受け付け、コンピュータ画面に描かれる「積み木の世界」に存在する様々な物体(ブロック、四角錐、立方体など)を動かすことができた。この成果はCycプロジェクトにも引き継がれている。

ボードゲームAlphaGo(アルファ碁))⇨
Google DeepMindによって開発されたコンピュータ囲碁プログラム。2016年3月9日、韓国のプロ棋士に4勝1敗。
ボードゲームをコンピュータで解く基本は探索であり、代表的なボードゲームでは探索の組み合わせの数の順番はオセロ<チェス<将棋<囲碁となる。この順番は、ボードゲームの複雑さと探索の困難さを示しており、囲碁は最も複雑であるとされる。

オセロ1997年に人工知能が人間のチャンピオンに勝利
チェス1997年に人工知能が人間のチャンピオンに勝利
将棋人間のレベルを超えたのは2015年
囲碁 2015年時点でコンピュータの実力は人間のアマチュア6、7段程度。世界チャンピオンに勝つにはさらに10年はかかると思われていたが、2016年3月9日に人工知能の囲碁プログラムAlphaGoが人間のチャンピオンに勝ち越した。

ヒューリスティック(な知識)
探索のコスト(時間や費用)を考えるときに、探索を効率化するのに有効な経験的な知識や経験をいう。この知識は、探索のコスト(時間や費用)を考慮する際に重要な要素となる。ボードゲームを例に取ると、コンピュータが効率よく最良の手を探索できるように状態が自分にとって有利か不利かを示すスコア(コスト)を情報として保持する。

MiniMax法
自分が番にスコアが最大になるように、相手の番にはスコアが最小になるように戦略を立てる手法。ボードゲームにおける探索木では、一手が指され他時に盤面の状態を探索木の各ノードとし、ある盤面における状態の良し悪しはスコアによって評価される。この手法は、自分の手番と相手の手番を交互に展開することで、相手が最善手を打ったと仮定し、その中で自分の最適な手を選ぶ。具体的には、葉ノード(終端状態)までのスコアを計算し、その値を親ノードに伝搬させる。自分の手番では子ノードの最大値を選択し、相手の手番では最小値を選択することで、最適な手を決定する。MiniMax法はすべての盤面状態を調べるため、計算量が膨大になる欠点がある。

αβ法
Mini-Max法による探索をできるだけ減らす手法。この方法では、すでに評価されたスコアを基に、不要なノードの探索を減らすことが可能だ。具体的には、αカットとβカットという2つの手法が用いられる。

αカットすでに出現したスコアよりも小さいノードが現れた時点で、その先につながるノードの探索をカットする。これにより、より良い結果を得られる可能性の低いノードにかかる探索コストを削減できる。
βカットすでに出現したスコアよりも大きいノードが現れた時点で、その先につながるノードの探索をカットする。これも同様に、探索コストの削減に寄与する。

ブルートフォース
総当たり攻撃を行う力任せな方法で、可能な組み合わせを全て試すアプローチ。人間の思考方法とは違ってブルートフォース(力任せ)で押し切る方法のため、探索しなければならない組み合わせの数が増えると、立ち行かなくなるためしばらくは囲碁でプロに勝てなかった。しかし、ディープラーニングの技術を利用し、人間の思考方法をコンピュータで再現することに成功。この結果、人間のプロ棋士に勝利を収めることが可能となった。ディープラーニングを用いた手法は、ブルートフォースとは対照的に、効率的な探索や学習が可能であることが示された。

モンテカルロ法
モンテカルロ法は乱数を用いたシミュレーションや数値計算を行う手法の総称。囲碁や将棋などにおいては、ゲームがある局面まで進んだら、あらかじめ決められた方法でゲームの局面のスコアを評価するという方法を完全に放棄する。その代わりに、コンピュータが2人の仮想的なプレーヤーを演じて、完全にランダムに手を指し続ける方法でゲームをシミュレーションし終局させてしまうことをプレイアウトという。どの方法が一番勝率が高いか計算でき、ゲームのスコアを評価できる。

2.2 知識表現

キーワード
人工無脳、知識ベースの構築とエキスパートシステム、知識獲得のボトル ネック(エキスパートシステムの限界)、意味ネットワーク、オントロ ジー、概念間の関係 (is-a と part-of の関係)、オントロジーの構築、ワト ソン、東ロボくん、イライザ (ELIZA)、イライザ効果、マイシン (MYCIN)、DENDRAL、知識獲得のボトルネック(エキスパートシステムの限界)、インタビューシステム、意味ネットワーク、is-a の関係、has-a の関係、part-of の関係、オントロジー、Cycプロジェクト、推移律、ウェブマイニング、データマイニング、ワトソン、Question-Answering、セマンティック Web

人工無脳
チャットボット、おしゃべりボットなどと呼ばれている、人間的な会話の成立を目指した人工知能に類するコンピュータプログラム。特定のルール・手順に沿って会話を機械的に処理するだけで、実際は会話の内容を理解していない。このような人工無能は、一般的には人工知能とは異なるカテゴリーに分類され、高度な理解や判断を行うことができない。しかし、シンプルな質問や会話に対しては、ある程度の対応が可能である。

イライザ(ELIZA)
1964年から1966年にかけてジョセフ・ワイゼンバウムによって開発されたコンピュータプログラム。(人工無能の元祖)相手の発言をあらかじめ用意されたパターンと比較し、パターンに合致した発言があった場合にはそのパターンに応じた発言を返答する。イライザは、単純なルールに基づいて会話を進めるため、実際には発言の意味を理解していない。しかし、その返答は人間らしいものであり、初期の自然言語処理技術の基礎を築いた。

イライザ効果
コンピュータのことを自分とコミュニケーションがとれる人間だと錯覚してしまうこと。この効果は、人間の心理的な要素や認知の特性から生じるもので、コンピュータとの対話が人間との対話と似た形式をとることで引き起こされることが多い。特に、人工知能やチャットボットが発展し、より自然な会話ができるようになった現代では、イライザ効果がより顕著になっている。イライザ効果は、ジョセフ・ワイゼンバウムが開発したシンプルな自然言語処理プログラム「ELIZA」に由来する。

マイシン( MYCIN )
1970年代にスタンフォード大学で開発された、血液中のバクテリアの診断支援をするルールベースのプログラム。あたかも感染症の専門医のように振舞うことができ、このマイシンは、医師の専門知識や経験を基に作成されたルールセットを活用して、患者の症状や検査結果から適切な診断を導き出すことができた。初期のエキスパートシステムとして影響力を持っていた。

DENDRAL
スタンフォード大学のエドワード・ファイゲンバウムが1960年代に開発した未知の有機化合物を特定するエキスパートシステム。このシステムは、専門家の知識を活用して複雑な化学構造を解析し、有機化合物の同定を行うことができた。1977年には実世界の問題に対する技術を重視した「知識工学」を提唱し、1970年代後半から1980年代にわたり多くのエキスパートシステムが開発された。

知識獲得のボトルネック(エキスパートシステムの限界)
知識のデータベースを構築するためには、専門家・ドキュメント・事例などから知識を獲得する必要がある。ドキュメントや事例から知識を獲得するためには自然言語処理や機械学習という技術を利用することで取得可能であるが、最大の知識源である人間の専門家の知識は暗黙的であるため獲得は難しい場合が多い。そこで専門家が持つ知識を上手にヒアリングするインタビューシステムなどの研究が行われた。知識を共有する方法や再利用する方法も問題になり、そうした問題を解決するために意味ネットワークやオントロジーなどの研究が活性化した。

意味ネットワーク
もともと認知心理学における長期記憶の構造モデルとして発案されたもので、人工知能分野においても重要な知識表現手法の1つとされている。この表現方法では、「概念」をラベル付きのノードで示し、概念間の関係をラベル付きのリンクで結んでいくことにより、ネットワーク形式で知識を表現する。意味ネットワークを利用することで、知識の構造化が容易になり、概念間の関係性を明確に示すことができる。また、概念をノードとして表現するため、情報の追加や変更が容易であり、柔軟な知識管理が可能となる。意味ネットワークを用いることで、知識の獲得や共有、再利用の課題に対処し、エキスパートシステムの限界を克服することが期待される。

is-a(「である」の関係)part-of(「一部である」の関係)
上位概念と下位概念の継承関係属性
哺乳類-犬車-部品
「is-a」の関係は推移律が必ず成立する。
「哺乳類 is-a 動物」と「人間 is-a 哺乳類」が成立すれば、「人間 is-a 動物」が自動的に成立することを意味する
「part-of」の関係には最低5つの関係があることが分かっており、コンピュータにこれを理解させるのは大変難しい。

is-a(「である」の関係)
is-a(「である」の関係)は、概念間の継承関係を表すもので、上位概念と下位概念の関係性を示している。例えば、「哺乳類」と「犬」の間にはis-aの関係が存在し、犬は哺乳類であるということを表現している。この関係は、概念階層を構築する際に重要な役割を果たす。is-aの関係には、推移律が必ず成立するという特徴がある。これは、ある概念が別の概念にis-aの関係で結ばれており、さらにその概念が別の概念にis-aの関係で結ばれている場合、最初の概念も最後の概念にis-aの関係で結ばれることを意味する。例として、「哺乳類 is-a 動物」および「人間 is-a 哺乳類」が成立する場合、「人間 is-a 動物」も自動的に成立する。

part-of(「一部である」の関係)
part-of(「一部である」の関係)は、概念間の構成要素関係を表すもので、ある概念が別の概念の一部分であることを示している。例えば、「車」と「部品」の間にはpart-ofの関係が存在し、部品は車の一部であることが表現されている。この関係は、概念の構成や概念間の関係性を明確化する上で重要な役割を果たす。「part-of」の関係には、最低でも5つの関係が存在することがわかっており、これらの関係をコンピュータに理解させるのは非常に難しい課題であるが、これらの関係を適切に表現することで、知識の表現や推論が効率的に行えるようになる。

オントロジー
本来は哲学用語で存在論(存在に関する体系的理論)という意味。人工知能の用語としては、トム・グルーパーによる「概念化の明示的な仕様」という定義が広く受入れられており、エキスパートシステムのための知識ベースの開発と保守にはコストがかかるという問題意識に端を発している。知識を記述する時に用いる「言葉(語彙)」や「その意味」、それらの関係性を共有できるように明確な約束事(仕様)として定義。オントロジーの研究が進むにつれ、知識を記述することの難しさが明らかになり、ヘビーウェイトオントロジー、ライトウェイトオントロジーという2つの流れが生まれた。

ヘビーウェイトオントロジー・対象世界の知識を記述する方法を哲学的に深く考察するアプローチ。
・対象世界の知識をどのように記述するかを哲学的にしっかり考えて行う。
・構成要素や意味的関係の正当性について哲学的な考察が必要になるため、どうしても人間が関わることになる傾向。
ライトウェイトオントロジー・完全に正しいものでなくても使えるものであればいいという考えで、構成要素の分類関係の正当性については深い考察は行わない傾向がある。
・セマンティックWeb(Webサイトが持つ意味をコンピュータに理解させ、コンピュータ同士で処理を行わせるための技術)や、LOD(Linked Open Data:コンピュータ処理に適したデータを公開・共有するための技術)などの研究として展開。
・ウェブデータを解析して知識を取り出すウェブマイニングやビッグデータを解析して知識を取り出すデータマイニングと相性が良い。

Cycプロジェクト
すべての一般常識をデータベース化し(知識ベース)、人間と同等の推論システムを構築することを目的とするプロジェクト(ダグラス・レナート)。1984年から今も続いている。このプロジェクトの主な狙いは、機械に人間のような推論能力を持たせることで、知識処理や問題解決を効率化し、人間の判断や活動を支援することである。そのため、一般的な知識や常識を網羅的に収集し、データベース化することが重要な取り組みとなる。

東ロボくん
東大入試合格を目指す人工知能の研究・開発プロジェクトのことで、2016年にはほとんどの私立大学に合格できるレベルになった。国立情報学研究所が2011年から研究がスタートしたが、質問の意味を理解していないので読解力に問題があり、現在の技術では合格は難しいことから2016年に凍結された。

ワトソン君
IBMが開発した質問応答システム・意思決定支援システムで、2011年、「ジョパディー」の歴代の人間チャンピオンに勝利した。Question-Answering(質問応答)という研究分野の成果であり、ウィキペディアの情報をもとにライトウェイト・オントロジーを生成して解答する。質問の意味を理解して解答しているわけではなく、質問に含まれるキーワードと関連しそうな答えを高速に検索し、解答候補が質問との整合性や条件をどの程度満たしているかを複数の視点でチェックし総合点を算出して、一番高い総合点が得られた候補を解答として選択していた。
IBMは開発当初、ワトソンを医療診断に応用するとしていたが、コールセンター、人材マッチング、広告、「シェフ・ワトソン」という新しい料理を考えることへの応用など幅広い分野で活用されている。

推移律
集合の二つの要素間の関係に関する条件の一つ。集合の二要素 x、y の間に関係 R があることを xRy と書くことにしたとき、「xRy かつ yRz なる限りつねに xRz」が成立するならば、関係 R は推移律をみたすという。「is-a」の関係は推移律が成立する。推移律が成立する典型的な例は、「is-a」の関係である。「is-a」の関係は、一般的に分類や階層構造を表す際に用いられる。例えば、「犬は哺乳類であり、哺乳類は動物である」という関係があった場合、「犬は動物である」という関係も成立する。このように、「is-a」の関係は推移律が適用される。

ウェブマイニング
ウェブサイトの構造やウェブ上のデータを解析して知識を取り出す。ウェブマイニングは主に3つのカテゴリに分類される。ウェブコンテンツマイニングは、ウェブページ上のテキストや画像、リンクなどの情報を解析し、新たな知識を抽出する。次に、ウェブ構造マイニングは、ウェブページ間のリンク構造を調査し、ページ同士の関係性や重要度を評価する。最後に、ウェブ利用マイニングは、ユーザーのウェブ閲覧履歴やクリックパターンなどの情報を解析し、ユーザーの興味や嗜好を把握する。ウェブマイニングは、検索エンジンの改善やパーソナライズされたコンテンツの提供、ウェブサイトの最適化、マーケティングや広告戦略の策定など、多岐にわたる分野で活用されている。

データマイニング
統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで、有用な知識を取り出す技術。データの前処理では、欠損値の補完や外れ値の処理、データの正規化などが行われる。次に、パターン抽出では、データから隠れたパターンや関連性を見つけ出す。最後に、評価・検証では、抽出されたパターンが実際に有用であるかを検証する。

Question-Answering
Question-Answeringは、質問応答システムのことであり、ユーザからの自然言語での質問を受け付け、解答を返すコンピュータソフトウェアを指す。このシステムは、自然言語処理や機械学習の技術を活用し、さまざまな情報源から知識を抽出し、質問に対する適切な回答を生成する。質問応答システムの代表例として、IBMが開発したワトソン君がある。

セマンティックWeb
Webページに記述された内容について、「情報についての情報」(いわゆるメタデータ)を一定の規則に従って付加し、コンピュータシステムによる自律的な情報の収集や加工を可能にする。情報リソースに意味を付与することでコンピュータにより高度な意味処理を実現することを目指す。セマンティックWebの目的は、情報を構造化し、コンピュータが理解しやすい形で提供することにより、人間とコンピュータが共同で情報を利用・共有できるようにすることである。これにより、情報検索やデータ分析、知識獲得などのタスクが効率化される。

2.3 機械学習・深層学習

キーワード
データの増加と機械学習、ビッグデータ、レコメンデーションエンジン、スパムフィルター、機械学習と統計的自然言語処理統計的、自然言語処理、コーパス、人間の神経回路、単純パーセプトロン、誤差逆伝播法、オートエンコーダ、ILSVRC、特徴量、次元の呪い、機械学習の定義、パターン認識、画像認識、特徴抽出、一般物体認識、OCR

データの増加と機械学習 
機械学習とは人工知能のプログラム自身が学習する仕組みのことをいう。コンピュータは与えられたサンプルデータを通してデータに潜むパターンを学習する。この際、サンプルデータが多ければ多いほど望ましい学習結果が得られる。2000年以降、ビッグデータ(インターネットの成長とともに蓄積された大容量データ)とともに注目を集めるようになった。

ユーザーの好みを推測するレコメンデーションエンジンや迷惑メールを検出するスパムフィルターなども、膨大なサンプルデータを利用できるようになった機械学習によって実用化されたアプリケーション。

機械学習と統計的自然言語処理 
従来は文法構造や意味構造を分析して単語単位で訳を割り当ていた。現在の統計的自然言語処理では複数の単語をひとまとまりにした単位(句または文単位)で用意された膨大な量の対訳データをもとに、最も正解である確率が高いものを選択。

コーパス
自然言語処理の研究や機械学習の分野で用いられる対訳データの集合である。自然言語の文章を構造化し、大規模に集積したデータセットが特徴となっている。これらのデータセットは、様々な言語やジャンルの文章が含まれており、実際の言語使用のパターンを分析することが可能である。

ニューラルネットワーク
機械学習の一つで、人間の神経回路を模倣することで学習を実するもの。1943年にウォーレン・マカロックとウォルター・ピッツによって人間の神経細胞を数理モデル化した形式ニューロンが発表され、これを元に1958年に米国の心理学者フランク・ローゼンブラットが単純パーセプトロンというニューラルネットワークを発表。1960年代に爆発的なブームを起こすが人工知能学者のマービン・ミンスキーにより単純パーセプトロンの限界が示され、ニューラルネットワークの研究は下火になってしまうが、ニューラルネットワークを多層にし誤差逆伝播法を使うことで克服された。
日本では1980年に福島邦彦らによってネオコグニトロンというニューラルネットワークが考案されており、これは畳み込みニューラルネットワークの起源となった。視野角の神経細胞の働きを模しており、画像の濃淡パターンを抽出するS細胞の層と特徴の位置ずれの影響を除去するC細胞の層とで構成される。add-id silent という学習手法がとられており、誤差逆伝播方は用いられていない。

誤差逆伝播法(バックプロパゲーション)
1986年にデビッド・ラメルハートらによって命名された、ニューラルネットワークを学習させる際に用いられるアルゴリズム。このアルゴリズムの目的は、ニューラルネットワークの予測値と実際の値との誤差を最小化することであり、そのためにネットワーク内の各パラメータ(重みとバイアス)を調整する。バックプロパゲーションの手順は、まずニューラルネットワークに入力データを与えて予測値を計算する。次に、予測値と実際の値との誤差を求め、この誤差をネットワークにフィードバックする。この際、誤差をネットワークの出力層から入力層に向かって逆伝播させ、各層の重みとバイアスの勾配を計算する。最後に、勾配降下法や確率的勾配降下法などの最適化手法を用いてパラメータを更新する。

オートエンコーダ(自己符号化器)
入力データを一度圧縮して次元数を下げ、その後再び元の次元数に戻して出力するようなニューラルネットワークである。このネットワークの目的は、入力と出力ができる限り同じになるように学習することで、データの内在する構造や特徴を抽出し、圧縮された表現を得ることである。オートエンコーダは主に二つの部分から構成される。一つ目は「エンコーダ」で、入力データを低次元の潜在空間にマッピングする役割を果たす。二つ目は「デコーダ」で、潜在空間から元の次元数に戻すための逆変換を行う。ネットワークは、入力データの再構成誤差を最小化するように学習される。

ILSVRC
ImageNet Large Scale Visual Recognition Challengeの略であり、2010年より始まった画像認識の精度を競い合う競技会。2012年、ジェフリーヒントン率いるトロント大学のチーム(SuperVision)がAlexNet(パラメータ数:60,000,000)がディープラーニングを用いて優勝。これを受けて、第3次ブームに発展した。
2012年以前のILSVRCで、画像認識に機械学習を用いることは既に常識になっていたが、機械学習で用いる特徴量を決めるのは人間だった。2012年以降のILSVRCのチャンピオンは全てディープラーニングを利用しており、2015年に人間の画像認識エラーである4%を下回った。

特徴量
分析すべきデータや対象物の特徴・特性を、定量的に表した数値。連続的な数値データやカテゴリデータ、テキストデータ、画像データなど、さまざまな形式のデータから抽出できる。各種データに対応する特徴抽出手法が存在し、それらを適切に適用することで、モデルの学習に適した形式の特徴量が得られる。特徴量の選択や抽出は、モデルの性能向上や計算効率の改善に直接影響するため、特徴量エンジニアリングというプロセスが必要である。特徴量選択や次元削減の手法も、特徴量エンジニアリングの一部であり、データの冗長性やノイズを排除し、計算コストを削減しながらモデルの性能を向上させる効果がある。

次元の呪い
数学者リチャード・ベルマンによって提唱された概念。データの次元数が大きくなり過ぎると、そのデータで表現できる組み合わせが飛躍的に多くなってしまい、サンプルデータでは十分な学習結果が得られなくなることを「次元の呪い」という。この問題に対処するために、次元削減や特徴選択の手法が用いられる。
一方で、副次的な次元を増やすことにより識別力を向上させることが可能な場合が存在し、そのことを「次元の祝福」と呼ぶ。適切な特徴量を追加することで、データの解釈やモデルの予測精度が向上する効果が期待できる。

パターン認識
画像や音声など膨大なデータから一定の特徴や規則性のパターンを識別して取り出す処理のこと

特徴抽出
データからその特徴量を取り出す処理のこと。ディープラーニングではこの処理が自動で行われるが、登場以前は人間の手によって行われていた。しかし、ディープラーニングの発展により、特徴抽出が自動で行われるようになり、モデルの精度が大幅に向上した。ディープラーニングでは、多層ニューラルネットワークの隠れ層が特徴抽出の役割を果たす。画像の関心部分をコンパクトな特徴ベクトルとして効率的に表現する一種の次元削減とも言える。特徴抽出の手法は、画像データの場合、エッジ検出やテクスチャ特徴、色の統計情報などを利用していた。音声データの場合、メル周波数ケプストラム係数(MFCC)やゼロクロッシングレートなどが用いられる。

OCR(Optical Character Recognition/Reader)
手書きや印刷された文字を、スキャナによって読みとり、コンピュータが利用できるデジタルの文字コードに変換する技術。OCR技術の発展により、高速かつ正確な文字認識が可能となっており、さまざまな業界やアプリケーションで利用されている。例えば、ビジネスでは、書類の電子化やデータ入力の効率化に役立ち、図書館やアーカイブでは、古い文献や資料のデジタル化に用いられる。最近のOCRシステムは、機械学習やディープラーニングを活用し、複雑なフォントや手書き文字、さらには多言語にも対応している。

3. 人工知能分野の問題

3.1 人工知能分野の問題

キーワード
トイ・プロブレム、フレーム問題、チューリングテスト、強い AI と弱いAI、シンボルグラウンディング問題、身体性、知識獲得のボトルネック、特徴量設計、シンギュラリティ、ローブナーコンテスト、中国語の部屋、機械翻訳、ルールベース機械翻訳、統計学的機械翻訳、特徴表現学習

トイ・プロブレム
トイ・プロブレム(おもちゃの問題)とは、おもちゃのように簡単な問題という意味ではなくコンピュータで扱えるように本質を損なわない程度に問題を簡略化した問題のことで、トイ・プロブレムを用いることで問題の本質を理解したり現実世界の問題に取り組んだりする練習ができるようになる。
コンピュータによる「推論」や「探索」 の研究が進み、特定の問題に対して解を提示できるようになった。迷路や数学の定理の証明のような簡単な問題は解けても、現実の問題は解けないことが明らかになり、1970年代には人工知能研究は冬の時代を迎える。

フレーム問題
1969年にジョン・マッカーシーとパトリック・ヘイズが提唱。哲学者のダニエル・デネットは、洞窟から爆弾を運び出すことを命じられロボットが洞窟から爆弾を運び出すことを命じられたロボットが考えすぎてフリーズしてしまう例を挙げた。有限の情報処理能力しかないため、今しようとしていることに関係のある情報だけを選択することが難しく、現実に起こりうる問題全てに対処することができないことを示すもの。ディープラーニングが登場した現在もまだ本質的な解決はされておらず、人工知能研究の中でも難問である。
フレーム問題を打ち破ったAIを汎用AI、フレーム問題を打ち破っていないAIを特化型AIと呼ぶことがある。

チューリングテスト(人工知能ができたかどうかを判定する方法)⇨
イギリスの数学者アラン・チューリングが提唱した、別の場所にいる人間がコンピュータと会話をした場合に相手がコンピュータだと見抜けなければコンピュータには知能があるとするもの。1950年の論文の中でアラン・チューリングは50年以内に質問者が5問質問した後の判定でコンピュータを人間と誤認する確率は30%であると見積もった。
1966年にジョセフ・ワインバムによって開発されたイライザ(ELIZA)では、精神科セラピストの役割を演じるプログラムで、本物のセラピストと信じてしまう人も現れるほどの性能であった。
1972年にケネス。コルビーが発表したパーリー(PARRY)も多くの判定者が誤解をする性能だった。イライザ(ELIZA)とパーリー(PARRY)は何度か会話を行ったことがあり、RFC439として最初の記録がある。
1991年以降、チューリングテストに合格する会話ソフトウェアを目指すローブナーコンテストを毎年開催されているが、現在もまだチューリングテストにパスする会話ソフトウェアは現れていない。

強いAIと弱いAI
アメリカの哲学者ジョン・サールが1980年に発表したAIの区分のこと。

強いAI・適切にプログラムされたコンピュータは人間が心を持つのと同じ意味で心を持つ。
・人間の知能に近い機能を人工的に実現するAI
弱いAI・コンピュータは人間の心を持つ必要はなく、有用な道具であればよい。
・人間の知能の一部に特化した機能を実現するAI

ジョン・サールは、人の思考を表面的に模倣するような「弱いAI」は実現可能でも、意識を持ち意味を理解するような「強いAI」は実現不可能だと主張している。
英語しかわからない人を中国語の質問に答えることができる完璧なマニュアルがある部屋に閉じ込めて、その人がマニュアル通りに受け答えをすれば、実際には中国語を理解していないにも関わらず部屋の中の人が中国語を理解していると誤解してしまう「中国語の部屋」という思考実験を実施。これが本当に知能があるといえるのかという議論がある。
ブラックホールの研究で有名なスティーブン・ホーキングと共同研究をしたことで有名な数学者のロジャー・ペンローズは、意識は脳の中にある微細な管に生じる量子効果が絡んむため、既存のコンピュータでは「強いAI」は実現できないと主張。

シンボルグラウンディング問題
1990年に認知科学者のスティーブン・ハルナッドにより議論された。記号(シンボル)とその対象がいかにして結び付くかという問題。人間のであれば「シマ(Stripe)」の意味も「ウマ(Horse)」の意味もよく分かっているので、本物のシマウマ(Zebra)を初めて見たとしても、「あれが話に聞いていたシマウマかもしれない」とすぐに認識することができる。しかし、コンピュータは「記号(文字)」の意味が分かっていないので、「シマ(Stripe)」と「ウマ(Horse)」から「シマウマ」と結び付けることができない。シンボルグラウンディング問題はまだ解決されておらず、人工知能の難問とされている。

身体性 
知能が成立するためには身体が不可欠であるという考え。視覚や触覚などの外界と相互作用できる身体がないと、概念はとらえきれないというのが身体性というアプローチの考え。人間は身体を通して概念を獲得しているため、シンボルグラウンディング問題が起きない。

知識獲得のボトルネック 
機械翻訳は1970年代後半まではルールベース機械翻訳、1990年代以降では統計的機械翻訳が主流となっていた。人間は膨大な一般常識を持っているのに対して、コンピュータが「意味」を理解していないため従来の統計的機械翻訳はうまくいかない。人間が持つ膨大な知識を獲得することの難しさを知識獲得のボトルネックという。
2016年11月にGoogleが発表したGoogle翻訳ではニューラル機械翻訳が利用されており、機械翻訳の品質が格段に向上した。ディープラーニングの利用で知識獲得のボトルネックを乗り越え、さらなる性能の向上が期待されている。ディープラーニングを使ったニューラル機械翻訳は、人間が言葉を理解するのと同じような構造で訳文を出力すると言われ、TOEIC900点以上の人間と同等の訳文も生成可能だと期待されている。

ナレッジエンジニア
エキスパートシステムの実現には「知識獲得のボトルネック」を解決する必要があるため、それを専門にするナレッジエンジニアと呼ばれる職業が生まれた。エキスパートシステムの開発には人工知能の技術についての理解が必要なので、一般のシステムエンジニアとナレッジエンジニアは区別される。

特徴量設計
機械学習において、注目すべきデータの特徴の選び方が性能を決定づけるため、注目すべきデータの特徴を量的に表したものを特徴量という。特徴量を人間が見つけ出すのは非常に難しいため、この特徴量を機械学習自身に発見させるアプローチを特徴表現学習と呼ぶ。ディープラーニングは与えられたデータの特徴量を階層化しそれらを組み合わせることで問題を解く。ディープラーニングは「判断理由を説明できないブラックボックス型の人工知能」と言われる。

シンギュラリティー
AIが人類の知能を超える転換点(技術的特異点)とのことであり、それにより人間の生活に大きな変化が起こるという概念。シンギュラリティーが起きると人工知能は自分自身よりも賢い人工知能を作れるようになり、その結果それ自身が無限に知能の高い存在を作り出せるようになるため、知的なシステムの技術開発速度が無限大になるので何が起きるか予想できないとされている。こうした脅威に対し、Googleは、イギリスのディープマインド・テクノロジーズ社を買収する際に、社内に人工知能に関する倫理委員会を作った。日本でも人工知能学会において、2014年に倫理委員会が設置された。なお、シンギュラリティに対する見解は人によって異なっている。

レイ・カーツワイル「$1,000で手に入るコンピュータの性能が全人類の脳の計算性能を上回る時点」
「2029年には人工知能が人間よりも賢くなり、シンギュラリティは2045年に到来する」
ヒューゴ・デ・ガリス「シンギュラリティは21世紀後半に到来する」
イーロン・マスクシンギュラリティに危機感を持ち、非営利組織OpenAIを設立
オレン・エツィオーニ「シンギュラリティは100万年後に特異点を迎える可能性はある。
しかし、世界制覇すると言う構想は馬鹿げている。」
ヴィーナー・ヴィンジ「機械が人間の役に立つふりをしなくなる」
スティーブン・ホーキング「AIの完成は人類の終焉を意味するかもしれない」

4. 機械学習の具体的手法

4.1 教師あり学習

キーワード
線形回帰、ロジスティック回帰、ランダムフォレスト、ブースティング、サポートベクターマシン (SVM)、ニューラルネットワーク、自己回帰モデル (AR)、分類問題、回帰問題、半教師あり学習、ラッソ回帰、リッジ回帰、決定木、アンサンブル学習、バギング、勾配ブースティング、ブートストラップサンプリング、マージン最大化、カーネル、カーネルトリック、単純パーセプトロン、多層パーセプトロン、活性化関数 、シグモイド関数、ソフトマックス関数、誤差逆伝播法、ベクトル自己回帰モデル (VARモデル)、隠れ層、疑似相関、重回帰分析、AdaBoost、多クラス分類、プルーニング


分類問題と回帰問題
教師あり学習の問題は出力値の種類によって、大きく2種類(回帰と分類問題)に分けられる。分類問題は出力が離散値であり、カテゴリを予測したいときに利用される。回帰問題は出力が連続値であり、その連続値そのものを予測したいときに利用される。

分類問題スパムメールの識別、手書き文字の認識、画像の中の物体のカテゴリ識別など。
・多クラス分類:出力カテゴリが2つ以上の場合。例えば、手書きの数字を0〜9のどれかに分類する場合など。
・2クラス分類(バイナリ分類):出力カテゴリが2つだけの場合。例えば、スパムメールかそうでないかを判定する場合など。
回帰問題株価の予測、家の価格の予測、気温の予測など。
・出力は具体的な数値。たとえば、家の面積、立地、築年数などの入力データから、その家の価格を予測する場合、予測される価格(例: $250,000)が回帰問題の出力となる。

線形回帰(LinearRegression)
回帰問題に用いる手法でシンプルなモデルの1つデータ(の分布)があったときに、そのデータに最も当てはまる直線を考える。線形回帰に正則化項を加えた手法として以下の方法がある。

ラッソ回帰
マンハッタン距離を用いたL1正則化を特徴とする手法で、一部のパラメータの値を0にすることで特徴選択が可能となる。マンハッタン距離とは、座標空間内での2点間の距離を、各座標軸に沿って直線的に移動する経路の合計距離として表し、L1正則化項における回帰係数の絶対値の和に相当。L1正則化は、モデルの過学習を防ぐ手法で、回帰係数の絶対値の和に比例するペナルティ項を最小化を目指すもの。この正則化により、一部の回帰係数が0となることがあり、これが特徴選択を実現する。特徴選択は、データ内の重要な特徴を抽出し、無関係な特徴やノイズを取り除くことでモデルの予測性能を向上させる効果がある。

リッジ回帰
線形回帰モデルにおいて過学習を防ぐために、L2正則化を適用した手法。ユークリッド距離を用いてパラメータの大きさに応じて0に近づけることにより、汎化されたモデルを取得することが可能となる。リッジ回帰では、目的関数にパラメータの二乗和を追加することで、パラメータが大きくなりすぎるのを制限し、結果的にモデルの複雑さを抑える効果が得られる。これにより、過学習を抑制しつつ、データに適切にフィットするモデルを構築できる。リッジ回帰は特に、説明変数間の多重共線性が存在する場合に有効な手法とされる。

ラッソ回帰リッジ回帰
マンハッタン距離を用いるユークリッド距離を用いる
L1正則化L2正則化
一部パラメータの値を0とすることで特徴選択が可能パラメータの大きさに応じて0に近づけることで、汎化されたモデルを取得する

両方を組み合わせた手法を Elastic Net という。

ロジスティック回帰
線形回帰を分類問題に応用したアルゴリズム。対数オッズを重回帰分析により予測して、ロジスティック(シグモイド)関数で変換することで出力の正規化によって予測値を求めることで、最大確率を実現するクラスをデータが属するクラスと判定する。目的関数は尤度関数を用いる。ロジット変換を行うことで、出力値が正規化される。3種類以上の分類は、ソフトマックス関数を使う。

決定木
分類木と回帰木を組み合わせたものでツリー(樹形図)によって条件分岐を繰り返すことで境界線を形成してデータを分析する手法。決定木は一般に仕組みがわかりやすいだけでなく、データのスケールを事前に揃えておく必要がなく、分析結果の説明が容易である特徴がある。
訓練データを用いて決定木を過学習させたあと、検証データを用いて性能低下に寄与している分岐を切り取ることを剪定という。これにより過学習を抑制できる。
条件分岐を繰り返す際に条件分岐の良さを判断するための基準をあらかじめ定めておく。分類問題においては情報利得の最大化を判断基準とする。

アンサンブル学習
複数のモデル(学習器)を融合させて1つの学習モデルを生成する手法。異なる学習器を個別に学習させ、それらの予測結果を統合して最終的な予測を行う。アンサンブル学習の目的は、個々の学習器の弱点を補完し合い、全体としての予測精度を高めることである。アンサンブル学習には、バギング、ブースティング、スタッキングなどの代表的な手法がある。

バギング
Bootstrap Aggregatingの略称で、予測値と実際値の誤差が大きい場合の改善方法として用いられる。アンサンブル学習の一手法であり、複数のモデルを並列に作成し、それぞれの予測結果の多数決によって最終的な予測を行う。この方法は、オーバーフィッティングを抑制し、モデルの汎化性能を向上させることが目的である。バギングは、元のデータセットからランダムに選んだデータのサブセット(ブートストラップサンプル)を用いて、それぞれの学習器を独立に学習させる。この過程で、複数の異なるデータセットが生成され、それぞれのモデルは異なるデータセットを用いて学習されるため、モデル間の相関が低くなる。バギングの結果は、回帰問題の場合は学習器の平均値を取ることで、分類問題の場合は多数決によって最終的な予測が決定される。これにより、個々の学習器の過学習やバリアンスが低減され、全体としてより安定した予測が可能となる。代表的なバギングのアルゴリズムには、ランダムフォレストがある。

ランダムフォレスト
「決定木」において特徴量をランダムに選びだす手法。ランダムフォレストでは特徴量をランダムに選び出す(ランダムに複数の決定木を作る)。学習に用いるデータも全データを使うのではなく、それぞれの決定木に対してランダムに一部のデータを取り出して学習を行う(ブートストラップサンプリング)。複数の決定木の結果から、多数決で出力を決定することで全体的に精度向上することを期待している。なお、複数のモデルで 学習することをアンサンブル学習、全体から一部のデータを用いてアンサンブル学習する方法をバギングという。ランダムフォレストはバギングの中で決定木を用いている手法である。過学習しやすいという弱点がある程度解消される。

ブースティング
バギングと同様に、ブースティングも一部データを繰り返し抽出し、複数モデルを学習させる手法である。しかし、バギングとは異なり、ブースティングは逐次的にモデルを構築し、前のモデルの誤差を次のモデルが補正するように学習を進める。これにより、全体として弱学習器が連携してより強力なモデルを構築することが可能となる。ブースティングでは、各学習器の性能を評価し、その重要度に応じて重み付けを行う。重み付けされた学習器の組み合わせによって最終的な予測が行われる。特に、誤分類されたデータ点に対して重みを増やすことで、次の学習器はそれらのデータ点にフォーカスし、より正確な予測が可能になる。代表的なブースティングアルゴリズムには、AdaBoost、XGBoost、勾配ブースティングなどがある。

バギングブースティング
複数のモデルを並列して一度に作成モデルを逐次的に作成
それぞれの結果の多数決を取る前のモデルでの不正解に対して重みを付けて学習
精度:低、学習時間:短精度:高 、学習時間:長

勾配ブースティング
勾配ブースティング決定木(Gradient Boosting Decision Tree: GBDT)とは、「勾配降下法(Gradient)」、「アンサンブル学習(Boosting)」、「決定木(Decision Tree)」の3つの手法を組み合わせた学習の手法。この手法では、決定木を逐次的に学習させ、前の決定木の誤りを次の決定木が修正するようにしていく。勾配降下法は、学習の過程で目的関数を最小化する方向へパラメータを更新していくことで、学習器の性能を向上させる役割を果たす。XGBoostやLightGBM、CatBoostなどがある。

ブートストラップサンプリング
母集団となるデータがあるとき、母集団から重複を許してランダムにいくらかデータを取り出して再標本化をする手法。バギングでは、まず母集団からBootstrap samplingによって複数のサンプルを抽出する。ブートストラップサンプリングを利用したアンサンブル学習の手法にバギングがある。ブートストラップサンプリングとバギングは、特にデータセットが小さい場合やノイズが多い場合に有効である。

サポートベクターマシン(SVM)
SVM(Support Vector Machine)とも呼ばれる。異なるクラスの各データ点(サポートベクトル)との距離(マージン)が最大となるような境界線を求めることで、パターン分類を行う。この距離を最大化することをマージン最大化と言う。スラック変数を用いることで、どの程度誤分類を許容するか調整できるようになり、誤分類されたデータに寛容になる。
SVMではデータをあえて高次元に写像することで、その写像後の空間で線形分類できるようにするカーネル法というアプローチがとられた。この写像に用いられる関数のことをカーネル関数と言う。計算量が非常に大きくなるため、カーネルトリックと言う手法を用いて計算量を抑えることができる。

ニューラルネットワーク 
ニューラルネットワークとは人間の脳の中の構造を模したアルゴリズムのこという。入力を受け取る部分を入力層、出力する部分を出力層と表現する。入力層における各ニューロンと、出力層におけるニューロンの間のつながりは重みで表され、どれだけの値を伝えるかを調整する。そして、出力が0か1の値をとるようにすることで、正例と負例の分類を可能にする。ニューラルネットワークのモデルには、複数の特徴量(入力)を受け取り、1つの値を出力する単純パーセプトロン、入力層と出力層の間に隠れ層を追加することで非線形分類も行うことを可能とする多層パーセプトロンがある。
層が増えることによって調整すべき重みの数も増えるが、予測値と実際の値との誤差をネットワークにフィードバックするアルゴリズムである誤差逆伝播法(backpropagation)がある。

多層パーセプトロン
順伝播型ニューラルネットワークの一分類である。入力ノードを除けば、個々のノードは非線形活性化関数を使用するニューロンである。多層パーセプトロンにおけるハイパーパラメータは学習率である。

活性化関数
入力に対して出力を調整するための関数であり、予測の精度に影響がある。単純パーセプトロンでは活性化関数としてステップ関数を用いた場合に相当する。
初期は出力を正規化するためシグモイド関数がよく利用されていたが、勾配消失が起きにくいReLU関数が用いられている。出力層付近ではソフトマックス関数も使用される。

シグモイド関数任意の値を0から1に写像し、正例(+1)と負例(0)に分類するための関数。閾値を設定し、閾値を境に正例or負例に分類することができる。
ソフトマックス関数3種類以上の分類を行いたい場合に、シグモイド関数に代わって扱う活性化関数。各ユニットの総和を1に
正規化することができる。主に分類問題の出力層で使われる。

自己回帰モデル(ARモデル)
一般に回帰問題に適用されるが、対象は時系列データである。時系列データ分析のことを単純に時系列分析(time series analysis)とも呼ぶ。ARモデルは、過去のデータポイントを予測変数として現在のデータポイントを予測することを目的とする。入力が複数種類の場合、自己回帰モデルをベクトル自己回帰モデル(vector autoregressive mode、VARモデル)と呼ぶ。VARモデルでは、複数の時系列データを同時に考慮し、各変数の過去のデータポイントに基づいて現在のデータポイントを予測する。これにより、異なる変数間の相互依存関係が考慮される。

ベクトル自己回帰モデル (VARモデル)
自己回帰(AR)モデルを多変量に拡張したもの。複数の変数を用いることで予測精度の向上が見込まれる。。VARモデルは、複数の時系列データ間の相互依存関係を捉えることができ、それぞれの変数が他の変数の過去の値に影響を受けることを考慮したモデル構築が可能である。VARモデルを適用することで、時系列データに含まれる相互作用や因果関係を明らかにし、より高い予測性能を実現することができる。

単回帰分析と重回帰分析
線形回帰には1つの説明変数の1次関数で目的変数を予測する単回帰分析と、複数の説明変数の1次関数で目的変数を予測する重回帰分析がある。単回帰分析と重回帰分析の選択は、説明変数の数やデータの性質によって決まる。
単回帰分析は説明変数と目的変数の間に線形関係が存在することを仮定し、その関係を表す直線を求める。単回帰分析は、2つの変数間の関係を明確に捉えることができるが、実際の問題では複数の説明変数が関与することが多い。
重回帰分析は説明変数が複数ある場合、それらの組み合わせによって目的変数を予測する線形モデルを構築する。重回帰分析では、各説明変数の寄与度や相互作用を考慮し、より高い予測性能を達成することが可能である。

マージン最大化
サポートベクターマシン(SVM)は、マージン最大化という基準を用いて決定境界を得るモデルで、決定境界から一番近いデータまでの距離をマージンといい、マージンが最大になるように決定境界の位置が決められる。このようにして求められた境界は、データが未知の場合でも高い予測性能を発揮し、過学習を抑制する効果がある。
決定境界の決め方には、データがマージンの内側に入ることを許容しない「ハードマージン」と、データがマージンの内側に入ることを許容する「ソフトマージン」がある。ハードマージンは、データがマージンの内側に入ることを一切許容しない方法で、完全に線形分離可能なデータセットに適している。一方、ソフトマージンは、データがマージンの内側に入ることをある程度許容する方法で、線形分離不可能なデータセットやノイズのあるデータセットに対応することができる。

カーネル
カーネル法は、データを高次元空間へと変換し、その空間での分析を容易にする手法である。この方法は、特徴量間の相関よりも精度が要求される場合や、線形分離不可能なデータセットに対して有効である。カーネル法を利用することで、高次元空間での分析を行いつつ、計算コストを抑えることが可能になる。カーネルは、実質的には2つのベクトル間の類似度を測る関数であり、機械学習アルゴリズムにおいて内積を置き換える役割を果たす。カーネルトリックと呼ばれる手法を用いることで、データを実際に高次元空間に変換することなく、内積の計算を行うことができる。代表的なカーネル関数として、線形カーネル、多項式カーネル、ガウシアンカーネル(RBFカーネル)などがある。

カーネルトリック
高次元のモデル利用時に汎化性能が低下しデータ分析が困難になる状況に対処する手法で、データの次元数を増加させてより単純な形状へ変換し、データ分析を容易に行うことができる。このカーネルトリックを用いることで、線形分離不可能なデータでも、高次元空間への写像によって線形分離可能な形に変換されることが期待される。その結果、データ分析の精度が向上し、より効果的な学習が可能となる。

誤差逆伝播法
ニューラルネットワークの学習において、勾配法を用いて重みやバイアスの更新を行う際に、連鎖律を活用して勾配を求める手法である。誤差逆伝播法は、出力層から順に誤差を逆向きに伝播させることで、各層のパラメータに対する勾配を効率的に計算することができる。これにより、深い層においても勾配を迅速に求め、最適なパラメータ更新が可能となる。誤差逆伝播法は、ニューラルネットワークの学習を高速化し、より良い性能を達成するために不可欠な手法であり、機械学習やディープラーニングの分野で広く用いられている。また、この手法は、勾配消失問題や勾配爆発問題といった学習の難題に対処するための改善策と組み合わせて使用されることも多い。例えば、活性化関数の選択や正規化手法の導入、学習率の調整などがこれに該当する。

相関係数
互いの特徴量の相関の正負と強さを表す指標のこと。この値が1に近づくほど、2つの特徴量は強い正の相関を示し、互いに増減が連動していることを表す。逆に、この値が-1に近づくほど、2つの特徴量は強い負の相関を示し、片方の特徴量が増加するとき、もう片方の特徴量が減少する傾向があることを示す。相関係数の値が0に近い場合は、特徴量間に顕著な相関関係は存在しないとされる。

疑似相関
二つの事象間に直接の因果関係が存在しないにもかかわらず、隠れた要因や潜伏変数の影響によって、因果関係があるかのように誤って推測される現象。擬似相関は、客観的に精査するとそれが妥当でないときにも、2つの集団間に意味の有る関係があるような印象を与える。これは、データの分析や解釈において誤った結論に導く可能性があるため、注意が必要である。疑似相関が生じる原因は、潜伏変数や共変量の存在によるものが一般的である。これらの要因が観測されていないため、二つの事象間に誤った関係が見えることがある。このような状況では、統計的な分析を行っても、因果関係が正確に把握できない場合がある。疑似相関を避けるためには、データの収集や分析段階で潜伏変数の影響を考慮することが重要である。また、データの因果関係を推定する際には、統計的手法や因果推論手法を適切に選択し、適切な条件下で分析を行うことが求められる。

多重共線性
相関係数が大きい場合に特徴量の組みを同時に説明変数に選ぶと予測がうまくいかなくなる現象のこと。複数の特徴量が強い相関を持っている場合に、それらを同時に説明変数として選択することで予測精度が低下する現象を指す。この現象は、特徴量間の相関関係が高いために、それらが重複した情報を持っていることが原因であり、予測モデルが適切な重み付けを行えなくなる。多重共線性の問題を避けるためには、相関係数を注意深く観察し、相関の高い特徴量の組み合わせを適切に選択することが重要である。特徴量の選択方法には、変数選択法や次元削減法などがあり、これらの手法を用いることで、多重共線性の影響を軽減することができる。

プルーニング
ニューラル ネットワークのレイヤー間のつながり(パラメーター)を削除することで、パラメーターの数を減らして計算を高速化することができる。パラメーターの値をゼロにすることで、ニューラル ネットワークのレイヤー間の不要なつながりと見なしたものを削除する。このプロセスにより、パラメーターの数が減少し、結果として計算処理が高速化される。

4.2 教師なし学習

キーワード
k-means 法、ウォード法、主成分分析 (PCA)、協調フィルタリング、トピックモデル、クラスタリング、クラスタ分析、レコメンデーション、デンドログラム(樹形図)、 特異値分解 (SVD) 、多次元尺度構成法、t-SNE、コールドスタート問題、コンテンツベースフィルタリング、潜在的ディリクレ配分法(LDA)、次元削減、次元圧縮

クラスタリング
機械学習における教師なし学習の1種で、データ間の類似度にもとづいてデータをグループ分けする手法。似たような特徴を持つデータ同士が同じクラスタに属するように、データが分割される。クラスタリングの目的は、データセット内の潜在的な構造や関係性を発見し、データの理解を深めることである。クラスタリングにはさまざまなアルゴリズムが存在し、それぞれ異なるアプローチでデータのグループ化を行う。代表的なクラスタリング手法には、階層的クラスタリング、K-meansクラスタリングなどがある。これらの手法は、データの形状や密度、特徴の重要性などに応じて、適切なクラスタリング結果を得ることができる。

クラスタ分析🔗
類似したオブジェクトをそれらがどれだけ密接に関連しているかに基づいて集落(クラスター)を作り、グループ化するための統計的手法。データセット内の潜在的なパターンや構造を発見し、データの解釈や理解を促進する目的で利用される。クラスタ分析は機械学習の教師なし学習の一種であり、データ間の類似性や関連性に基づいてデータをグループ化する。クラスタ分析は、データマイニングや情報抽出、異常検知、推薦システムなど、多様な分野で応用されている。

k-means法(階層なしクラスタリング)
階層なしクラスタリングの一種であり、クラスタの平均を用いて、与えられたクラスタ数をk個に分類する。k個のkは自分で設定する。k-means法を用いた分析のことをクラスタ分析といい、データセット内の類似性に基づいてグループ化することが目的となる。この手法は、データの特徴を捉えることで意味のあるカテゴリ分けを行い、データ解析において有用な情報を得ることができる。

ウォード法(階層ありクラスタリング)
階層ありクラスタリングの一つで、データセットの階層構造を求めることを目的とする。k-means法からさらに、クラスタの階層構造を求めるまで行う手法。最も距離が近い2つのデータ(クラスタ)を選び、それらを1つのクラスタにまとめる処理を繰り返していく。クラスタリングのまとまりを表した樹形図のことをデンドログラム(dendrogram)という。

デンドログラム(樹形図)
クラスター分析において、逐次的に標本がグループ化される様子を木の枝のような線で表したもの。ンドログラムは、階層的クラスタリング手法において、データ間の類似性や関連性を視覚的に示すために用いられる。この図は、データポイント間の距離を基に、横軸に標本を並べ、縦軸に類似度を表している。デンドログラムを用いることで、どのデータポイントがどのクラスタに属するか、そして各クラスタ間の関係や階層構造を直感的に把握することができる。また、適切なクラスタ数を決定する際にも役立つ。縦軸の類似度に基づいて適切なカットオフポイントを選択することで、クラスタ数を決定できる。

主成分分析(Principal ComponentAnalysis、PCA)
データの特徴量間の関係性、相関を分析しデータの構造をつかむ手法。特に特徴量の数が多い場合に用いられ、相関をもつ多数の特徴量から相関のない少数の特徴量へと次元削減することが主たる目的。ここで得られる少数の特徴量を主成分という。 線形な次元削減であり、計算量の削減ができ次元の呪いの回避が可能となる。寄与率を調べれば各成分の重要度が把握でき、主成分を調べれば各成分の意味を推測しデータの可視化が可能となる。 
主成分分析以外には、特異値分解(Singular Value Decomposition、SVD)多次元尺度構成法(Multi-Dimensional Scaling、MDS)がよく用いられる。可視化によく用いられる次元圧縮の手法は、t-SNE(t-distributed Stochastic NeighborEmbedding)がある。t-SNEのtはt分布のtである。

協調フィルタリング(collaborative filtering)
レコメンデーション(recommendation)に用いられる手法のひとつであり、レコメンドシステム(推薦システム)に用いられる。ECサイトで表示される「この商品を買った人はこんな商品も買っています」の裏側には協調フィルタリングが用いられている。協調フィルタリングは事前にある程度の参考となるデータがないと推薦を行うことができない(コールドスタート問題(cold startproblem))
ユーザーではなく商品側に何かしらの特徴量を付与し、特徴が似ている商品を推薦する方法をコンテンツベースフィルタリング(content-based filtering)という。対象ユーザーのデータさえあれば推薦を行うことができるのでコールドスタート問題を回避することができるが、反対に他のユーザー情報を参照することができない。

トピックモデル
k-means法やウォード法と同様クラスタリングを行うモデル。文章を潜在的な「トピック(単語の出現頻度分布)」から確率的に現れるのものと仮定して分析を行う。各トピックの確率分布を推定できれば、傾向や単語の頻度、次にくる文章の予測が可能となる。各文書データ間の類似度を求めることができるため、レコメンドシステム(推薦システム)に用いることができる。データをひとつのクラスタに分類するk-means法などと異なり、トピックモデルは複数のクラスタにデータを分類するのが特徴。トピックモデルの代表的な手法に潜在的ディリクレ配分法(latent Dirichlet allocation、LDA)がある。

LDA(Latent Dirichlet Allocation)
教師なし機械学習の手法であるLDA(Latent Dirichlet Allocation)は、文中の単語から、トピックを推定する教師なし機械学習の手法。ディリクレ分布という確率分布を用いて、各単語から隠れたあるトピックから生成されているものとしてそのトピックを推定する。この方法により、複数の文書に共通するトピックを発見し、それぞれの文書がどのトピックに関連しているかを特定することが可能となる。また、LDAは教師なし学習であるため、事前にラベル付けされたデータが必要なく、大量のテキストデータから自動的にトピックを抽出することができる。

LSI(Latent Semantic Indexing)
潜在的意味解析と呼ばれるトピックモデルの1種。文章ベクトルにおいて複数の文章に共通に現れる単語を解析することによって、低次元の次元の潜在意味空間を構成する方法。ある行列を複数の行列の積で表現する行列分解の一つである特異値分解が用いられれる。文章中の情報を圧縮することができ、これによりトピックを推定することができる。

k近傍法(knn法(k nearest neighbor))
クラス分類の手法でありデータから近い順にk個のデータを見て、それらの多数決によってクラス分類を行う手法。クラスのサンプル数に偏りに弱いという欠点がある。アルゴリズムは単純であるが、訓練データが多いと計算に時間がかかる。各クラスのデータ数の偏りが少なく、各クラスがはっきりと分かれている場合には有効である。さらに、k近傍法はパラメータ調整が比較的容易であり、新たなデータが追加されても再学習が容易であるという利点も持っている。

ユークリッド距離(Euclidean distance)
人が定規で測るような二点間の「通常の」距離のことであり、ピタゴラスの公式によって与えられ、二次元平面上の点同士の距離だけでなく、多次元空間における距離も計算することができる。ユークリッド距離に対して、各次元ごとに標準偏差で割り、値の分散を標準化した上でのユークリッド距離を標準ユークリッド距離と呼ぶ。標準ユークリッド距離は、各次元の尺度の影響を減らすことができるため、異なる尺度を持つ特徴量が混在しているデータに対しても適切な距離計算が可能となる。

マハラノビス距離
標本点と分布の間の尺度。ベクトルyから平均μ及び共分散Σを持つ分布の場合、標準偏差単位でyが平均からどの程度離れているかを表す。この距離は標準偏差単位で測定され、平均からの離れ具合を数値化することができる。マハラノビス距離は、多変量データの分析や異常検知などの分野で利用されることが多く、データの特徴を捉えるために用いられる。特に、共分散行列が単位行列の場合、マハラノビス距離はユークリッド距離と等しくなる。

特異値分解 (SVD:singular value decomposition)
線形代数学における複素数あるいは実数を成分とする行列に対する行列分解の一手法。行列に対するスペクトル定理の一般化とも考えられ、正方行列に限らず任意の形の行列を分解できる。特異値分解により、与えられた行列を3つの行列の積に分解することができる。この3つの行列は、直行行列、対角行列、そしてもう一つの直行行列で構成されている。分解された行列は、元の行列の特性や構造を保持しており、データ圧縮やノイズ除去などの目的で利用されることがある。主成分分析(PCA)やレコメンデーションシステムの協調フィルタリング、画像圧縮、自然言語処理など、多くのアプリケーションでSVDが重要な役割を果たしている。

多次元尺度構成法(MDS:Multi Dimensional Scaling)🔗
多変量解析の一手法。主成分分析の様に分類対象物の関係を低次元空間における点の布置で表現する手法である。主成分分析と同様に、高次元データをより簡潔に低次元空間に投影し、データ間の関係を可視化することができる。これにより、データの構造やパターンを理解しやすくなる。また、MDSは、類似性や距離の情報を元に、データを最適な形で配置するため、データの比較や解釈が容易に行える。特に、人間の知覚や評価に関するデータの分析において効果的な手法とされる。

t-SNE(t-Distributed Stochastic Neighbor Embedding)🔗
高次元データを2次元又は3次元に変換して可視化するための次元削減アルゴリズム。高次元での距離分布が低次元での距離分布にもできるだけ合致するように変換する。高次元の局所的な構造を非常によく捉える、大局的な構造も可能な限り捉えるといった特徴がある。

次元削減
多次元からなる情報をその意味を保ったまま、それより少ない次元の情報に落とし込むこと。これは、データの特徴を抽出し、情報の本質を理解しやすい形に変換することで、データ分析や機械学習の効率を向上させることが可能となる。また、次元削減はデータの可視化にも役立ち、高次元データを2次元や3次元のグラフにプロットすることで、データの傾向やクラスタリングを視覚的に捉えることができる。次元削減には主成分分析(PCA)やt-分布確率近傍埋め込み法(t-SNE)などの手法があり、それぞれ異なるアプローチで次元削減を実現する。主成分分析は、データの分散が最大となる方向を見つけることで次元を削減し、t-SNEは高次元空間のデータの近さを確率分布で表現し、それを低次元空間に再現することで次元削減を行う。

4.3 強化学習

キーワード
バンディットアルゴリズム、マルコフ決定過程モデル、価値関数、方策勾配、
割引率、ε-greedy 方策、UCB 方策、マルコフ性、状態価値関数、行動価値関数、Q値、Q学習、REINFORCE、方策勾配法、Actor-Critic、A3C

強化学習とは🔗
強化学習とはエージェントが環境の中で自身が得る収益を最大化するために行動を選び、その行動が状態を変化させ、最終的にはエージェント自身が得る収益を最大化するような方策を獲得することを目指す学習手法である。環境と相互作用することで、エージェントは行動の選択や収益の最大化に役立つ情報を学習し、その知識を活用してより良い結果を得ることができる。このアプローチは、自動制御やロボティクス、ゲーム理論などの分野で広く活用されており、多くの実用的な応用が存在する。

バンディットアルゴリズム(bandit algorithm)🔗
バンディットアルゴリズムは、強化学習において将来の累積報酬を最大化する行動を選択する際に活用される手法である。行動の組み合わせが無数に存在するため、「活用」と「探索」という2つの考え方が重要となる。活用では、既知の情報を基に報酬が最大となる行動を選択する。一方、探索では、未知の情報を得るために新たな行動を試みる。バンディットアルゴリズムは、この活用と探索のバランスをうまく取りながら、エージェントが最適な行動を選択する能力を向上させることを目指す。強化学習においてはどちらも重要な要素であり、この活用と探索のバランスを取る手法の総称をバンディットアルゴリズムという。ε-greedy方策やUCB方策がある。

活用現在知っている情報の中から報酬が最大となるような行動を選ぶ
探索現在知っている情報以外の情報を獲得するために行動を選ぶ

ε-greedy方策(epsilon-greedy policy)
活用と探索のバランスを取るためのシンプルなアプローチである。この方策では、基本的に報酬が最大となる行動を選択することで活用を行う。しかし、確率εでランダムな行動を選択し、探索を実施する。ε-greedy方策は、エージェントが既知の情報に基づいて最善の行動を選択する一方で、一定の確率で新たな行動を試すことで未知の情報を獲得し、最適な行動の探索を促進する。この方法により、エージェントは経験を通じて最適な行動を見つけ出し、環境に適応して最終的な報酬を最大化することが可能となる。

UCB方策(upper-confidence bound policy)
報酬和の期待値が高い行動を選択する基本方針を持ちながら、試行回数が少ない行動を優先的に選ぶアプローチである。この方法では、探索と活用のバランスを考慮してアームの選択を行い、報酬の最大化を目指す。、UCB方策では、各行動の報酬の期待値と試行回数を考慮した評価値を計算し、評価値が最も高い行動を選択する。試行回数が少ない行動は、評価値に大きな不確かさが含まれているため、これらの行動を優先的に選択することで探索を促進する。

ε-greedy方策
(epsilon-greedy policy)
基本的には「活用」(=報酬が最大となる行動を選択)するが、一定確率εで「探索」(=ランダムな行動を選択)する
UCB方策
(upper-confidence bound policy)
報酬和の期待値が高い行動を選ぶという基本方針を持ちつつ、試行回数が少ない行動を優先的に選択する。探索と活用のバランスをとりながらアームの選択を行い、報酬の最大化を目指す

マルコフ決定過程モデル(Markov decision process) 
マルコフ性とは確率論における確率過程が持つ特性の一種であり、環境に対して暗黙的にある仮定を置くことで、「現在の状態から将来の状態に遷移する確率は、現在の状態にのみ依存し、それより過去のいかなる状態にも一切依存しない」という性質。強化学習において、状態遷移にマルコフ性を仮定したモデルをマルコフ決定過程モデルいう。エージェントは環境と相互作用し、行動を選択し、報酬を受け取りながら学習を行う。この過程で、マルコフ決定過程モデルは状態、行動、報酬、および状態遷移確率に関する情報を組み合わせて、エージェントが環境の中で最適な方策を見つける手助けをする。マルコフ決定過程モデルは、状態遷移の不確かさや報酬の期待値を考慮して、問題を数学的に定式化し、解決することができる。これにより、エージェントは最終的な報酬を最大化するような方策を獲得する。

価値関数🔗
強化学習の目的は、現在の状態から将来の累積報酬が最大となるような行動を選択していくことだが、実際に最適な方策を見つけ出すのは難しいため、最適な方策を直接求める代わりに状態や行動の「価値」を設定し、その価値が最大となるように学習をするアプローチの検討がされた。この「価値」を表す関数として状態価値関数(state-value function)、行動価値関数(state-value function)を導入する。

状態価値関数直近の報酬に次の状態の価値関数を足したもの。方策および遷移確率で未来のとりうる値は変わってくるので、その期待値をとる。
行動価値関数状態sでの行動aを評価する関数。状態sに対して、どの行動が最適なものかを導く手法。

一般に「価値関数」と言った場合行動価値関数を指す。価値関数のことをQ値(Q-value)とも呼び、これを最適化することで最適な行動ができるようなるといえる。Q値を最適化する手法にはQ学習(Q-learning)、SARSAなどがある。

Q学習🔗
エージェントが行動するたびにQ値を更新する学習法。2013年にDeep Mind社はディープラーニングを組み合わせたDQNを発表した。その後、Double DQN、Dueling Network、Categorical DQN、Rainbowなどが提案された。

割引率
強化学習の行動を選択する段階において、将来もらえると期待できる報酬の総和を見積もるため、即時報酬に乗算する値。この見積もりは即時報酬から割り引かれて計算され、割引くための係数を割引率という。0から1の間の値をとる。割引率が高い場合、将来の報酬がより重視され、逆に割引率が低い場合は即時報酬が重要視される。割引率を用いて、将来得られる報酬の総和の見積もりが計算される。この見積もりは割引された報酬の和として表現され、エージェントはこの割引された報酬の和を最大化するような行動を選択することを目指す。

方策勾配(policy gradient method) 
方策をあるパラメータで表される関数とし、累積報酬の期待値が最大となるようにそのパラメータを学習することで、直接方策を学習していくアプローチを方策勾配法という。方策反復法の1つの手法であ李、方策勾配定理に基づき実装される。ロボット制御など、特に行動の選択肢が大量にあるような課題で用いられる。方策勾配法の利点は、連続的な行動空間や大規模な行動空間においても適用可能であることで、これによりロボット制御や自動運転車のような実世界の問題に対処することができる。また、方策勾配法は、適切な方策関数を選択することで、学習が効率的に進行し、最適な方策に収束する可能性が高まる。この方法では、状態空間や行動空間が大きくなるにつれて計算量が増加するため、高次元の問題に対しては計算負荷が高くなることが欠点である。

REINFORCE
強化学習アルゴリズムの一つであり、自ら生成したサンプルを擬似的な教師データとして利用し、評価が高いサンプルに高い重みを与えて学習を行う方法である。このアルゴリズムは、方策勾配法の一種であり、特にモンテカルロ法を用いた学習手法として知られている。AlphaGoにおいても、REINFORCEアルゴリズムが活用された。REINFORCEの利点は、学習過程で必要な計算量が少なく、実装が比較的簡単であることである。また、探索と利用のバランスを適切に調整しながら学習を進めることができるため、最適な方策に収束しやすくなる。さらに、擬似的な教師データを用いることで、教師あり学習の枠組みを利用しつつ、強化学習の問題設定に対応することが可能である。REINFORCEの欠点としては、サンプル効率が低いことが挙げられる。つまり、大量のサンプルが必要となり、学習に時間がかかることがある。また、方策勾配の推定において高い分散が生じることがあり、これが学習の不安定性につながることがある。

Actor-Critic
価値関数ベースと方策勾配ベースの考え方を組み合わせた手法であり、行動を決定する「行動器」(Actor)と価値評価を行う「評価器」(Critic)を用意し、両者を交互に更新しながら学習を進める方法である。アルゴリズムの名前は、これら行動器と評価器から成っていることに由来する。具体的な実装例としては、A2C(Advantage Actor-Critic)やDDPG(Deep Deterministic Policy Gradient)などが存在する。Actor-Criticの利点は、行動器が直接方策を学習することで、連続的な行動空間に対応できる点である。また、評価器によって行動価値を評価し、方策の改善に利用することで、学習の安定性が向上し、収束速度も早くなる。さらに、価値関数と方策勾配法を組み合わせることで、方策勾配法の分散の問題や、価値関数ベースの手法における最適行動の発見の困難さを緩和することができる。Actor-Criticアルゴリズムの欠点としては、ハイパーパラメータ調整が必要な場合があり、学習の効果に大きく影響することがある。

A3C(Asynchronous Advantage Actor-Critic)
Asynchronous(非同期)な学習とAdvantage(行動の相対的な価値)を用いて学習を進めるActor-Criticの応用手法である。A3Cは、DQN(Deep Q-Network)と比較して性能が高く、CPUを用いた計算にも適しているとされる。A3Cの主な特徴は、複数のエージェントが非同期に学習を行い、それぞれが独立した環境で学習を進めることである。これにより、探索範囲が広がり、局所解に陥りにくくなる。また、非同期学習によって計算リソースを効率的に活用することができ、GPUを必要としないCPUでも高速な学習が可能となる。さらに、A3CではAdvantageを導入することで、行動価値関数から基準価値を引くことにより、行動の相対的な価値を評価し、学習の効率化を図る。これにより、方策勾配の分散が低減され、学習の安定性が向上する。A3Cの欠点としては、ハイパーパラメータの調整が難しく、学習の効果に大きく影響することがある。しかし、A3CはDQNと比較して高い性能を発揮し、多くのタスクで成功しているため、強化学習のアプリケーションにおいて広く活用されている。

4.4 モデルの評価

キーワード
正解率・適合率・再現率・F 値、ROC 曲線と AUC、モデルの解釈、モデルの選択と情報量、交差検証、ホールドアウト検証、k- 分割交差検証、混同行列、過学習、未学習、正則化、L0 正則化、L1 正則化、L2 正則化、ラッソ回帰、リッジ回帰、LIME、SHAP、オッカムの剃刀、赤池情報量基準 (AIC)、汎化性能、平均二乗誤差、偽陽性-偽陰性、第一種の過誤-第二種の過誤、訓練誤差、汎化誤差、学習率、誤差関数

正解率・適合率・再現率・F値混同行列🔗
機械学習や統計の分野では、モデルの性能を評価するためのさまざまな指標が存在する。これらの指標はモデルがデータにどれだけ適合しているか、あるいは新しいデータに対してどれだけの予測能力を持っているかを示す。モデルの評価指標には、精度(Accuracy)、適合率(Precision)、再現率(Recall)、F1スコア(F1 Score)などがある。
例として「犬」、「猫」の画像分類問題の場合は以下のようになる。

データセット:「犬」の画像: 100枚、「猫」の画像: 100枚

モデルの予測結果と混同行列

「犬」と予測して正しかった数 (真陽性: True Positive): 90枚
「猫」と予測して間違った数 (偽陽性: False Positive): 10枚
「猫」と予測して正しかった数 (真陰性: True Negative): 85枚
「犬」と予測して間違った数 (偽陰性: False Negative): 15枚




実際は「犬」実際は「猫」
予測が「犬」9010
予測が「猫」1585
正解率
(accuracy)
(TP+TN)/(TP+TN+FP+FN)全データ中、どれだけ予測が当たったかの割合
適合率(precision)TP/(TP+FP)予測が正の中で、実際に正であったものの割合
再現率
(recall)
TP/(TP+FN)実際に正であるものの中で、正だと予測できた割合。
F値
(F measure)
2 × Precision × Recall / Precision + Recall適合率と再現率の調和平均。適合率のみあるいは再現率のみで判断すると、予測が偏っているときも値が高くなってしまうので、F値を用いることも多い。 
実際の値\予測値
真陽性(TP:True Positive)偽陰性(FN:False Negative)
偽陽性(FP:False Positive)真陰性(TN:True Negative)

ROC曲線
視覚的にモデル性能を捉えることができる指標。横軸にFPR=FP/(FP+TN)、縦軸にTPR=TP/(TP+FN)を取り、閾値を0から1に変化させていった際の値をプロットして得られる曲線。2クラス分類で閾値を0から1に変化させていった場合に、予測の当たり外れがどのように変化していくのかを表す。

AUC
ROC曲線より下部(右部)で囲まれる面積のこと。AUC(0~1)が1に近いほどモデル性能が高いことを表す。特にクラスの不均衡がある場合でも比較的ロバストな評価が可能。ただし、偽陽性と偽陰性のコストが大きく異なる状況では、他の評価指標も併用することが推奨される。

モデルの解釈
機械学習による予測はモデルの精度だけでなくどのように予測しているかも考慮する必要がある。このように考慮する理由は、モデルがなぜそのような結果を出したのかを理解することで、モデルの信頼性が高め、予測モデルの「ブラックボックス」性を減らすことができる。特に、高度に複雑なモデルの場合、どの特徴量がどれほど影響を与えたかを明らかにすることは非常に重要。予測の説明性を持たせる手法は以下の通り。

LIME
🔗
・予測結果に対してのみ局所的に近似させた単純な分類器を作って、その単純な分類器から予測に効いた特徴量を選ぶ。
・2016年にデータ分析の国際会議で提案された。
・LIMEは”Local interpretable model-agnostic explanations”の略であり、多くの種類の機械学習モデルに適用可能。
SHAP
🔗
・予測した値に対して、「それぞれの特徴変数がその予想にどのような影響を与えたか」を算出するもの。
・2017年にニューラルネットワークの国際会議で発表された。
・SHAPは”Shapley Additive explanations”という名前であり、ゲーム理論のShapley値を基にしている。
・値に対して、「それぞれの特徴変数がその予想にどのような影響を与えたか」を算出するもの。

交差検証(cross-validation) 🔗
汎化性能を評価する統計的な手法で、データセットを複数のサブセットに分割し、それぞれのサブセットでモデルの訓練と評価を行う。具体的には、データを「訓練セット」と「テストセット」に分割し、訓練セットでモデルを訓練して、テストセットでその性能を評価する。このプロセスを各サブセットで繰り返し、最終的に得られた性能評価の平均値や分散などを用いて、モデルの汎化性能を推定する。

ホールドアウト検証
教師データの一部を「テストデータ」として分離し、残りを「訓練データ」として学習を行う。この方法は、モデルの汎化性能を評価する一般的な手法である。訓練データで学習した後、テストデータでモデルの性能を評価することで、未知のデータに対するモデルの反応を推測できる。ただし、この手法はデータが少ない場合や偏っている場合には不適切な結果を生む可能性がある。一般的には、データを訓練セットとテストセットに分割する際の比率は、例えば70:30、80:20などとされることが多い。

k- 分割交差検証 🔗
データをk個のブロックに分割し、それぞれのブロックを一度ずつテストデータとして使用する。残りのk-1個のブロックは訓練データとして用いる。全体でk回の検証が行われる。この手法はクロスバリデーションとも呼ばれ、各ブロックでの評価結果の平均を取ることでモデルの汎化性能を評価する。教師データが少ない場合やデータの分布が偏っている場合に特に有用で、ホールドアウト法よりも厳密な評価が可能。ただし、計算コストが高い場合がある。

過学習(overfitting)🔗
学習時に訓練誤差が小さい一方で、新しい未知のデータに対する汎化誤差が小さくならない状態。この状態では、モデルは訓練データに対して高い性能を示すが、新しいデータに対しては効果的でない。つまり、訓練データに過度に最適化されてしまっている。

未学習(underfitting)🔗
モデルが訓練データに対しても、新しい未知のデータに対しても低い性能しか示さない状態。正則化が過度である場合や、モデルの複雑性が不足している場合に発生する。これにより全体の汎化性能(予測性能)が低下する。

正則化 🔗
学習の際に用いる式に正則化項を追加することで、パラメータ(通常は重みとバイアス)のノルムが大きくなりすぎないように制約をかける。これにより、モデルが訓練データに対してのみ過度に調整されること、すなわち過学習を防ぐ効果がある。この正則化項はL1正則化、L2正則化などがあり、それぞれ異なる制約をパラメータに課す。

L0正則化0ではないパラメータの数で正則化する。組み合わせは最適化問題になるので、計算コストが高い。スパースなモデルを生成する場合に有用だが、非常に計算的に複雑。
L1正則化一部のパラメータの値を0にすることで、特徴選択を行うことができる。スパースな解を生成し、不要な特徴を自動的に取り除く。
L2正則化パラメータの平方ノルムに基づき、その大きさを0に近づける。これにより、モデルは滑らかで汎化性能が向上する可能性がある。重みの大きさに制約を加える手法は「荷重減衰(Weight Decay)」とも呼ばれる。過学習を防ぐ効果があり、多くの機械学習アルゴリズムで一般的に使用される。

Elastic Net
L1正則化とL2正則化を組み合わせた手法は「Elastic Net」と呼ばれ、ラッソ回帰の特徴選択とリッジ回帰の滑らかさの両方の利点を活かすことができる。

モデルの選択と情報量
機械学習のモデル設計においては、一概に複雑にすればよいというわけではない。複雑なモデルは訓練データに対して高い精度を持つ可能性があるが、過学習(オーバーフィッティング)のリスクも高まる。逆に、シンプルなモデルは一般化能力が高い場合が多いが、アンダーフィッティングの危険もある。モデルの選択にはバイアスとバリアンスのトレードオフを考慮する必要があり、交差検証、正則化、アンサンブル手法なども活用することで、モデルの性能を最適化する。

オッカムの剃刀(Occam’s razor / Ockham’s razor)
「ある事柄を説明するためには、必要以上に多くを仮定するべきでない」という哲学的な指針。この考え方は、機械学習でもしばしば採用される。具体的には、過学習(Overfitting)を防ぐために、よりシンプルなモデルが好まれる場合が多い。過学習とは、モデルが訓練データに対して高すぎる精度で適合し、新しいデータに対する予測性能が落ちる現象を指す。シンプルなモデルは、必要な情報だけを用いて予測を行い、不必要な仮定や複雑さを排除する傾向がある。

赤池情報量規準(Akaike’s Information Criterion, AIC)
統計モデリングで使用される一般的な手法で、特に機械学習の分野でも頻繁に使われる。モデル設計の際にどれくらいモデルを複雑にすればよいのかを決定するための指標であり、モデルの複雑さと予測精度のバランスを評価するもの。具体的には、AIC = 2logL + 2k の公式で計算される。ここで、Lはモデルの尤度(likelihood)、kはモデルのパラメータ数。2logLはモデルがデータにどれだけ適合しているか(尤度)を測定する項であり、これが大きいほどモデルはデータによく適合している。一方で、2kはモデルの複雑さを表す項で、多くのパラメータを持つモデルはこの値が大きくなる。複雑なモデルは過学習(overfitting)のリスクが高くなるため、AICはそのバランスを取るように設計されている。AICが低いモデルは、予測精度と複雑さのバランスがよいとされる。

第一種の過誤-第二種の過誤
統計的有意性を判断する際に用いられる有意確率をp値と呼ぶ。具体的には、帰無仮説が正しいという前提で「それ以上偏った検定統計量が得られる確率」として計算される。この帰無仮説がたとえば「母集団Aと母集団Bの平均は等しい」とすると、p値は「2つの母集団AとBからサンプリング可能なすべての組み合わせの総数を1とした場合、その中で今回の平均値の差以上に偏った平均値の差が出るサンプルの組み合わせが占める比率」を数値で表す。帰無仮説が正しい場合に対立仮説を誤って受け入れる誤りを「第1種の過誤(Type I error)」と称する。一方で、対立仮説が正しい状況で帰無仮説を受け入れる誤りは「第2種の過誤(Type Ⅱ error)」と呼ぶ。統計的検定を行う際には、帰無仮説を棄却する基準、すなわち有意水準を前もって定めることが一般的である。この有意水準を下回るp値が計算されたときにのみ、「統計的有意差があった」と結論づけることができる。混同行列においては第1種の過誤は「偽陽性(False Positive)」に、第2種の過誤は「偽陰性(False Negative)」に相当する。これらは特に機械学習の分類問題などでよく用いられる評価指標であり、性能を評価する際にも重要な考慮点となる。

汎化性能
汎化性能とは、機械学習モデルが訓練データだけでなく、未見のテストデータに対しても高い予測精度を持つ能力のことを指す。この性能はモデルの実用性を大きく左右する因子であり、過学習や未学習を避けるために重要。具体的には、モデルが訓練データに対して高い精度を持つだけでなく、その設計やパラメータが新たなデータに対しても柔軟に適応できるようになっている状態を指す。検証データやクロスバリデーションを用いて評価されることが多い。

平均二乗誤差
測定値と真値(または目標値)との差を求め、それを二乗する。得られた二乗誤差をすべてのデータポイントに対して加算し、その合計をデータポイントの数で割って平均を出す。この値が平均二乗誤差となる。測定値のバラツキ具合を数量的に表す指標であり、この値が小さいほどモデルの予測精度は高いとされる。特に回帰問題などでよく用いられる評価指標。

5. ディープラーニングの概要

5.1 ニューラルネットワークとディープラーニング

キーワード
単純パーセプトロン、多層パーセプトロン、ディープラーニングとは、勾配消失問題、信用割当問題、誤差逆伝播法

ニューラルネットワーク 🔗
ニューラルネットワークとは、人間の脳の中の構造を模したアルゴリズムであり、非常に多くの用途で使用されている。元々は入力を受け取る部分を入力層、出力する部分を出力層と表現し、これらの間に存在するニューロンのつながりは「重み」として調整される。さらに、バイアス項もしばしば追加され、より柔軟なモデル表現を可能にする。出力が0か1の値をとるように設定することで、二値分類問題の解決も可能になるが、ソフトマックス関数などを用いることで多クラス分類も可能。重みは学習過程で調整され、損失関数を最小化するように最適化される。この学習過程は「バックプロパゲーション」と呼ばれる手法を用いて行われることが多い。ニューラルネットワークのモデルにはいくつかのバリエーションが存在する。単純パーセプトロンは最も基本的な形で、複数の特徴量(入力)を受け取り、1つの値を出力する(線形分離)。しかし、このモデルでは非線形なデータの分類は難しい。そのため、入力層と出力層の間に一つ以上の「隠れ層」を追加することで非線形分類も行うことを可能とする多層パーセプトロンが開発された。

ディープラーニング
ディープラーニングは、隠れ層を増やしたニューラルネットワークの一種であり、この層が多い(深い)特性から深層学習とも呼ばれる。この技術は特に画像認識、自然言語処理、強化学習など、多くの応用分野で高い性能を発揮する。バックプロパゲーションと呼ばれるアルゴリズムを用いて、各層の重みを調整することで学習が行われる。また、ディープラーニングモデルを訓練する際には、通常、大量のデータと計算リソースが必要である。

畳込みニューラルネトワーク(CNN)画像認識など
再帰型ニューラルネトワーク(RNN)時系列データなど
自己符号化器(AutoEncoder)次元削減など

勾配消失問題 🔗
ニューラルネットワークは、誤差逆伝播法(バックプロパゲーション)によりモデルの予測結果と実際の正解値との誤差をネットワークの出力層から入力層にかけて逆向きにフィードバックさせる形でネットワークの重みを更新している。特にディープニューラルネットワーク、すなわち層が多いネットワークでは、伝搬する誤差がどんどん小さくなってしまうことを勾配消失問題という。この問題が発生すると、入力層付近での学習が進まなくなるディープニューラルネットワーク特有の現象となる。もともとは事前学習、例えばオートエンコーダやRBMs(Restricted Boltzmann Machines)を用いてこの問題を回避していた。しかし、ReLU(Rectified Linear Unit)のように正規化機能を持たない活性化関数を中間層で用いること、またはバッチ正規化、層の正則化、畳み込み層の利用など、現在は様々な工夫により事前学習なしでも学習が行えるようになっている。さらには、勾配クリッピングやLSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)のような特別なアーキテクチャも勾配消失問題に対する一つの解決策とされている。

信用割当問題
複数のコンポーネントから成るシステムの最終的な出力が間違っている場合に、どのコンポーネントに責任があり、修正する箇所を求める問題。この問題は特に機械学習や人工知能の分野で重要で、ニューラルネットワークやアンサンブル学習など、多くの要素が組み合わさって結果を生むアルゴリズムにおいてよく遭遇する。信用割当問題を解決する手法として、バックプロパゲーションや誤差分析、貢献度分析などがある。

誤差逆伝播法 🔗
誤差逆伝播法は、勾配法によるニューラルネットワークの学習で使われるアルゴリズムの一つ。具体的には、この方法はネットワークの出力と目標となる出力との差(誤差)を計算し、その誤差を逆向きにネットワーク内で伝播させる。この過程で連鎖律(チェーンルール)を用いて、各層の重み付け(もしくはバイアス)に関する勾配を効率的に求める。これにより、勾配降下法やその派生形である確率的勾配降下法(SGD)、Adamなどの最適化手法を用いて、重みとバイアスを更新する。この手法は特に多層パーセプトロン(MLP)や畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)など、多層のネットワーク構造において効果を発揮する。誤差逆伝播法によって、計算コストを抑えながら複雑な関数も近似できるため、機械学習・ディープラーニングの多くの応用例で採用されている。

5.2 ディープラーニングのアプローチ

キーワード
事前学習、オートエンコーダ、積層オートエンコーダ、ファインチューニング、深層信念ネットワーク、制限付きボルツマンマシン

事前学習(pre-training🔗
事前学習とはディープラーニングの研究初期から注目されている手法で、その目的は主にモデルの重み関数(重みの初期値)についてより良い初期条件を設定することだ。この手法は主に教師なし学習を用い、オートエンコーダ(自己符号化器)が一例としてよく知られている。オートエンコーダを順番に学習していく手順のことを特に事前学習と呼び、この概念は2006年にジェフリー・ヒントンによって提唱された。教師なし学習の手法は多岐にわたるが、積層オートエンコーダ(Stacked Autoencoder)の場合にはオートエンコーダが、深層信念ネットワーク(Deep Belief Network)の場合には制限付きボルツマンマシン(Restricted Boltzmann Machine)がそれぞれ用いられている。

事前学習の欠点 🔗
事前学習の一つの大きな欠点は、層ごとに順番に学習が進むため、全体の学習に必要な計算コストが非常に高くなる可能性がある。この手法は、初期のニューラルネットワークでよく用いられたが、高い計算コストは多くの研究者や実務者にとって障壁となっていた。しかし、ディープラーニングの研究が活発になるにつれて、今では事前学習が必要なくなる場合も増えてきた。特に、勾配消失問題の対処法として、活性化関数を工夫したり、より高度な初期化手法を用いるといったテクニックが開発された。これにより、多層のネットワークでも効率的に学習が可能となり、事前学習の必要性が減少している。

オートエンコーダ(autoencoder)🔗
入出力が同じになるような層をもつニューラルネットワークであり、入力と出力がセットになった可視層と隠れ層の2層で構成される。このタイプのネットワークは特に「自己符号化器(autoencoder)」と呼ばれる。可視層(入力) → 隠れ層 → 可視層(出力)とデータが伝播し出力される。通常、可視層の次元よりも隠れ層の次元を小さくする必要がある。エンコード(encode)とは、入力層から隠れ層への処理のことで、この過程でデータは次元削減される。デコード(decode)とは、隠れ層から出力層への処理で、この過程で次元が元に戻される。圧縮の際に隠れ層は入力層より次元が減り、これを元に戻す過程で情報が失われないように設計されている。この特性を「次元削減」と呼ぶ。自己符号化器を用いると、主成分分析(PCA)よりも複雑な非線形な次元削減を得られる。これは、自己符号化器が非線形の活性化関数を用いるため、線形手法よりも高度な次元削減が可能である点で有利。

積層オートエンコーダ(stacked autoencoder🔗
積層オートエンコーダ(stacked autoencoder)は、オートエンコーダのエンコーダ(圧縮)およびデコーダ(復元)部分を多層化した構造を持つ。各オートエンコーダは一つ一つ順番に学習させ、その結果を積み重ねていくというアプローチをとる。これはディープニューラルネットワークにおいて一気にすべての層を学習するのとは対照的で、入力層に近い層から順番に学習させるという逐次的な方法を採用している。この手法はジェフリー・ヒントンによって考案された。積層オートエンコーダは特に非線形な次元削減が可能であり、高次元データを低次元の潜在空間にマッピングする際に有用である。さらに、この逐次的な学習方法は、モデルの収束を速めたり、局所的な最適解に陥りにくくするといった利点も持っている。通常のオートエンコーダとは異なり、積層オートエンコーダはより複雑な関数を近似する能力があるため、より高度なタスクにも適用可能である。

ファインチューニング(fine-tuning) 
既存の学習済みモデルに対して重みを一部再学習させる手法で、特に転移学習の一環としてよく用いられる。このプロセスでは、特徴量抽出器としての既存の学習済みモデルの層の重みを微調整する。多くの場合、積層オートエンコーダや畳み込みニューラルネットワーク(CNN)などの構造を持つモデルが使用される。特定のタスクに特化させるためには、最後にロジスティック回帰層(シグモイド関数またはソフトマックス関数による出力層)を設けて、このロジスティック回帰層に重みの調整を行う。このような方法をファインチューニングと呼び、実質的には事前学習とファインチューニングの二つの工程で構成される。具体的には、事前学習では一般的なデータセットでモデルを訓練し、ファインチューニングでは特定のタスクやデータセットに対して調整を加える。

深層信念ネットワーク 🔗
深層信念ネットワークは、2006年にジェフリー・ヒントンによって提唱された機械学習の一手法で、複数層のニューラルネットワークを用いる。このアルゴリズムでは、初めに教師なし学習を用いてデータの特徴をキャッチする。具体的には、制限付きボルツマンマシン(restricted Boltzmann machine, RBM)という確率的な生成モデルを使用して、オートエンコーダに相当する層を事前学習する。その後、事前学習した制限付きボルツマンマシンを全て結合し、この複数層のネットワークをベースとして、ソフトマックス層などの追加の層を積み重ねる。これによって、分類問題や回帰問題などの教師あり学習タスクに適応させる。この手法は、深いネットワークの訓練を効率的に行えるという利点があり、特に大量のラベル付きデータが不足している場合に有用である。ただし、近年ではより高度な手法、例えば畳み込みニューラルネットワーク(CNN)やリカレントニューラルネットワーク(RNN)、トランスフォーマー等が普及しているため、制限付きボルツマンマシン自体は少し古い手法とも考えられる。

制限付きボルツマンマシン 🔗
データ生成を支配する確率分布を近似する学習モデル。一般には、二層のニューラルネットワークで構成され、一方の層が観測データを入力として受け取り、もう一方の層がそのデータから隠れ変数または特徴を学習する。特に、エネルギーベースモデルの一形態ともされる。学習は対象データの統計的性質を捉えるように、各ニューロン間の接続重みが調整される。

5.3 ディープラーニングを実現するには

キーワード
CPU と GPU、GPGPU、ディープラーニングのデータ量、TPU

CPU(Central Processing Unit)🔗
ディープラーニングを考える上では、ハードウェアの進化の影響は確かに大きい。Intel社の創設者の1人であるゴードン・ムーアが提唱した「半導体の性能と集積は、18ヶ月ごとに2倍になる」という経験則、通称ムーアの法則は、一般的に今や限界を迎えてきたと言われている。その背景としては、物理的な制約やエネルギー効率の問題がある。ここで補足すると、これらの制約により、単一のCPUコアのクロック速度の向上が難しくなっているため、多コア化や特化したハードウェアの重要性が高まってきている。コンピュータ全般の作業を処理する役割を担うCPU(セントラル・プロセッシング・ユニット)は、様々な種類のタスクを順番に処理していくことに長けている。しかし、ディープラーニング特有の計算、特に大量の行列演算や並列処理には不得意である。これに対応するため、グラフィックス処理ユニット(GPU)やテンソル処理ユニット(TPU)など、計算の特性に合わせた特化型のハードウェアがよく用いられる。

GPU(Graphics Processing Unit) 🔗
“graphics” という名前が表している通り、元々は画像処理に関する演算を担っていた。しかし、近年では機械学習、人工知能、科学計算など、画像処理以外の大規模な並列演算処理にも広く用いられている。この拡張された用途は、GPUが大量の小さな計算コアを持ち、大規模な並列演算処理に特化した存在であるため可能となっている。それにより、高度なデータ解析や複雑な数学的モデルを高速に計算できる。GPUはCPUと比較して、汎用的なタスクをこなす能力は低いが、特定の種類の計算、特に行列演算やベクトル演算などにおいては非常に高速に動作する。そのため、ディープラーニングのトレーニングなど、大量のデータを効率よく処理するシナリオで頻繁に利用される。

GPGPU(General-Purpose computing on GPU) 🔗
一般的な計算用途で使用可能なGPU(Graphics Processing Unit)のことを指す。GPGPUは、高度な計算処理、特に線形代数や浮動小数点演算において、効率的に行う能力を持つ。一般的なCPUに比べて、並列処理に非常に優れており、多くの計算を同時に行うことが可能。GPGPUの用途は、科学計算から機械学習、特にディープラーニングまで広がっている。主要な開発企業としてはNVIDIA社があり、この会社はCUDA(Compute Unified Device Architecture)というプラットフォームも提供している。CUDAは、GPGPUを用いた計算をより簡単に、効率的に行うためのプログラミングフレームワークであり、多くの機械学習ライブラリがCUDAに対応している。

ディープラーニングのデータ量 🔗
畳み込みニューラルネットワーク(CNN)手法の1つである AlexNet(アレックスネット)モデルのパラメータ数は、約6000万個にもなる。このような複雑なモデルには、多くのデータが必要で、一般に「モデルのパラメータ数の10倍のデータ数が必要」というバーニーおじさんのルールと呼ばれる経験則が存在する。このルールは、モデルが過学習を防ぐためには、多数のデータポイントが必要だという指摘に基づいている。ただし、この経験則は一概にすべてのケースで当てはまるわけではなく、データの質や分布、タスクの複雑性、または正則化手法なども影響を受ける要素となる。加えて、データ拡張や転移学習といったテクニックを使うことで、少ないデータでも効果的な学習が可能となる場合もある。

TPU 🔗
TPU(Tensor Processing Unit)は、ディープラーニングを高速化する目的でGoogleが開発した専用のプロセッサ。このチップは、テンソルと呼ばれる多次元データ構造を効率的に計算することができ、一般的なCPUやGPUよりも高いパフォーマンスとエネルギー効率を提供する場合がある。Google Cloud Platformでは、外部の開発者や企業もこのTPUを利用できるようになっている。

5.4 活性化関数

キーワード
tanh 関数、ReLU 関数、シグモイド関数、ソフトマックス関数、Leaky ReLU 関数

活性化関数 🔗
ディープニューラルネットワークは隠れ層を増やしたネットワークであり、誤差を逆伝搬する際に勾配が消失しやすくなってしまうという課題がある。この勾配消失問題は、活性化関数であるシグモイド関数の微分の最大値が小さいために起こる。出力層では、出力を確率で表現するためにシグモイド関数が一般的に使用されるが、隠れ層では任意の実数を変換することができる微分可能な関数にしても問題ない。そこで、隠れ層での勾配消失を防ぐために、ReLU(Rectified Linear Unit)、tanh(双曲線正接関数)、Leaky ReLUなどの活性化関数が提案されている。

シグモイド関数 🔗
活性化関数の1つで、その形はS字曲線になっている。この関数は、任意の実数値を0から1の範囲にマッピングする性質がある。この関数は古典的なニューラルネットワークではよく用いられていたが、最近ではReLU(Rectified Linear Unit)やその変種がよく使われる。シグモイド関数は勾配消失問題(vanishing gradient problem)が起きやすく、学習が遅くなる場合があるという欠点も持っている。数式は以下の通り。

tanh関数 🔗
シグモイド関数が0から1の範囲を取るのに対して、tanh関数は-1から1の範囲を取る。これは出力の中心が0になるため、データの中心化が容易になるとも言える。シグモイド関数の微分の最大値が0.25であるのに対し、tanh関数の微分の最大値は1であるため、勾配が消失しにくい。この特性により、一般的なディープニューラルネットワークの隠れ層でシグモイド関数が使われている場合、それをtanh関数に置き換えると性能が改善する可能性がある。ただし、この微分の“最大値”が1であり、1より小さい数になってしまうケースが多いため、勾配消失問題を完全に防ぐことはできない。実際に、勾配消失問題は深いネットワークにおいては依然として問題となり得る。

ReLU関数(Rectified Linear Unit)🔗
tanh関数よりも勾配消失問題に対処できる。これは、ReLU関数を微分すると、0より大きい限り、微分値は常に1が得られるため。ただし、xが0の場合、微分は未定義。tanh関数のようにピーク値のみが1のときと比較すると、誤差逆伝播の際に勾配が小さくなりにくい(勾配消失しにくい)。しかしこの点については、ReLU関数が0以下の値で勾配が全く逆伝播しない(勾配が0になる)という特性も持つ。この特性は「勾配消失」問題を引き起こす可能性があり、勾配爆発とは異なる。勾配爆発は、逆伝播中に勾配が非常に大きくなる問題を指す。ReLUはステップ関数と同様に不連続な関数である。

LeakyReLU関数 🔗
x<0においてわずかな傾き(通常は0.01などの小さい値)をもっている。これにより微分値が0になることはなくなるため、ReLU(Rectified Linear Unit)よりも勾配消失しにくい。この特性は特に深いニューラルネットワークで有用である。ただし、Leaky ReLUよりもReLUのほうが結果がよい場合もある。これは、ネットワークのアーキテクチャや学習データ、その他のハイパーパラメータに依存する。

ソフトマックス関数
複数の出力値の合計が1.0(=100%)になるように変換して出力する関数。この関数は、特に分類問題でよく用いられる。入力された各値(スコアやロジットとも呼ばれる)が、あるクラスに所属する確率として解釈されることが多い。ソフトマックス関数を通過した後の各値は0から1の範囲に収まり、その合計は必ず1になるため、確率分布として扱える。数学的には、ソフトマックス関数は指数関数を用いて各入力値を正規化し、その結果が新たな確率分布となる。特に多クラス分類の最後の層で利用されることが一般的。

Parametric ReLU
Leaky ReLUの一種であり、負の入力値に対する傾き(通常は小さい正の値)を学習可能なパラメータとして最適化する。Leaky ReLUは負の入力値に対しては通常一定の小さい傾き(例えば、0.01)を持つのに対し、Parametric ReLUはこの傾き自体が学習過程で最適化される点が特徴。これにより、モデルはさまざまなタスクやデータにより柔軟に適応できる可能性があるが、過学習のリスクが高まる可能性もある。

Randomized ReLU
複数の傾きをランダムに試す活性化関数。通常のReLU(Rectified Linear Unit)が一定の傾き(通常は1)で正の値を透過させるのに対し、Randomized ReLUは正の入力値に対してランダムな傾きを持つことで、モデルの汎化能力を向上させることが目的。この手法は特に深層学習モデルにおいて、過学習を防ぐために用いられる場合もある。

5.5 学習の最適化

キーワード
勾配降下法、勾配降下法の問題と改善、学習率、誤差関数、交差エントロピー、イテレーション、エポック、局所最適解、大域最適解、鞍点、プラトー、モーメンタム、AdaGrad、AdaDelta、RMSprop、Adam、AdaBound、AMSBound、ハイパーパラメータ、ランダムサーチ、グリッドサーチ、確率的勾配降下法、最急降下法、バッチ学習、ミニバッチ学習、オンライン学習、 データリーケージ

学習の最適化
機械学習の目標はモデルの予測値と実際の値との誤差を少なくすることである。この目標に対して、誤差を量る指標として誤差関数を定義する。この誤差関数を最小化することが、モデルの最適化となる。関数の最小化問題には数学的な手法が多く存在するが、機械学習、特にニューラルネットワークでは、多数の変数やパラメータが絡むため解析的に求めることが難しい。このような状況で効率的に最適解を探索するアプローチ手法として勾配降下法が一般的に用いられる。分類問題においては、誤差関数として主に交差エントロピー誤差が用いられる。しかし、それ以外にも平均二乗誤差やヒンジ損失など、問題設定やデータの性質に応じて選ばれる誤差関数も存在する。

勾配降下法
勾配に沿って降りていくことで解を探索する最適化手法。ここで言う勾配とは、コスト関数(または損失関数)の微分値にあたる。目的の解が得られるまで勾配に沿って降りていきながら解を探索していく。これを解が見つかる、または指定した条件に達するまで繰り返し計算するのが勾配降下法。ローカルミニマムやプラトーなどの問題もあるため、最適解に到達する保証はない。このとき、何回繰り返し計算を行ったか(重みの更新を行った回数)を示す指標をイテレーション、訓練データを何度学習に用いたかをエポック、勾配に沿って一度にどれだけ降りていくかを決める割合をα(学習率)という。ニューラルネットワークの「学習」とは、この勾配降下法を用いて、またはその派生手法(例:確率的勾配降下法、モーメンタム、Adamなど)を用いて繰り返し計算を行うことを指す。最適解が見つかるまで探索を継続するため、解が得られるまで時間がかかることもある。訓練データが60000個、イテレーションを12000回、バッチサイズを100とした場合、エポック数は20回となる。
(60000/100 = 600、12000/600 = 20)

勾配降下法の問題と改善
勾配降下法は、局所最適解と大域最適解を区別する能力がない。そのため、何も工夫をしないと局所最適解に陥ってしまう可能性が高い。局所最適解を防ぐ方法として、学習率の値を大きく設定する手法が一般的に考えられる。ただし、学習率が大きすぎると、大域最適解を飛び越えて探索し続けてしまう危険性がある。この問題を緩和するためには、学習が進むにつれて学習率を適切に調整する必要がある。
局所最適解を避ける他の手法としては、モメンタムやAdamなどの最適化アルゴリズムが存在する。これらは局所最適解に陥りにくく、また学習率の調整が自動的に行われる場合もある。学習率の調整には、学習率のスケジューリングと呼ばれる手法が多く提案されている。これには時間に応じて学習率を下げる方法や、検証データに対する性能を基に学習率を調整する方法などがある。勾配降下法は確率的勾配降下法(SGD)やミニバッチ勾配降下法など、さまざまなバリエーションが存在する。それぞれの方法には利点と欠点があり、問題に応じて適切な手法を選ぶ必要がある。

局所最適解最小に見えるが実際にそうではない見せかけの解
大域最適解すべての解の中で最も良い(最小または最大)解
停留点解ではないが、勾配が0になる点。実際には局所最適解や大域最適解も停留点になり得る

鞍点
鞍点は、ある次元で極小値をとり、別の次元で極大値を取る点のことを指す。一度鞍点付近に陥ると、そこから抜け出すことは困難になる可能性がある。最適化が進まない状態全般をプラトーと呼び、鞍点もこの状態に陥る一因とされる。鞍点問題への対処法として1990年代に提唱されたモーメンタムは、学習の進行方向に過去の勾配を加算することで、局所的な最小値や鞍点から抜け出しやすくする手法の一つである。しかし、Adaptive Learning Rateの手法(AdaGrad, Adamなど)や、2次最適化法(Newton’s MethodやL-BFGS)も鞍点問題に対する有用な解決策とされている。

確率的勾配降下法(SGD:Stochastic Gradient Descent)
勾配降下法の一種で、連続最適化問題に対する近似解を求めるための乱択アルゴリズムである。ランダムに選んだ1つのデータポイントで勾配を計算するケースが基本だが、ミニバッチと呼ばれる小さなデータ集合で勾配を計算するバージョンも広く使用される。この手法は特に大規模データセットやオンライン学習環境で効率的に動作する。局所最小に陥りにくいとされる利点は主に非凸関数に対して有効だが、局所最小に陥る可能性自体はゼロではない。凸関数の場面では、基本的な勾配降下法でも全体の最小値に収束する可能性が高い。

最急降下法
最急降下法は勾配降下法の一種であり、目的関数(多くの場合は誤差関数)の局所最小値を求めるための最適化手法である。このアルゴリズムは傾きが最も急な方向にパラメータを更新することで関数の最小値を探索する。一般的には、学習率と呼ばれるパラメータによってステップサイズが制御される。ただし、最急降下法は局所最小値にトラップされやすいという欠点もあり、より高度なバージョンの勾配降下法(例:確率的勾配降下法、ミニバッチ勾配降下法、モメンタムを用いた方法など)がしばしば用いられる。

Adagrad
勾配に基づいて最適化するアルゴリズムで、過去の勾配の情報を取り入れて学習率を動的に調整する。このアルゴリズムはベクトルの各要素に対して異なる学習率を適用することができる。具体的には、過去の各更新ステップでの勾配の二乗和をパラメータごとに累積し、この情報を用いて各パラメータの学習率を調整する。Adagradは特に疎なデータに対して有用であるとされている。また、学習率の調整が自動で行われるため、ハイパーパラメータの調整が比較的容易であるとも言える。ただし、長い訓練期間にわたると学習率が極端に小さくなる傾向があり、その結果として学習が停滞する可能性もある。

Adadelta
Adagradの拡張版として開発された最適化アルゴリズムで、最近の勾配の情報により重みを置く。このアルゴリズムは過去の勾配の二乗の平均を指数移動平均を用いて累積し、その情報に基づいてパラメータの更新を行う。このため、学習率は自動的に調整され、手動で設定する必要が少ない。

RMSprop
Adagradの問題点を改善するために開発された最適化アルゴリズムで、過去の勾配の二乗和の指数移動平均を用いて学習率を調整する。これにより、学習の初期段階で急速に学習率が低下するAdagradの問題を緩和し、長期間の訓練でも効率よく収束することが可能になる。過去の情報を「忘れる」機構を導入することで、新しい情報により適応的になり、精度向上を狙う。

Adam(Adaptive Moment Estimation)
RMSpropとMomentumの特長を合成した最適化アルゴリズムで、第一モーメント(平均)と第二モーメント(未中心化の分散)の推定値を使いながらバイアス補正を行う。AdamはRMSpropのように指数的減衰を用いて過去の勾配の情報を考慮し、Momentumのように移動平均を用いて勾配の方向をスムーズにする。ハイパーパラメータが少なく、多くのケースでデフォルトの設定でも良い結果を出すが、学習率などの調整が必要な場合もある。

AMSGrad
Adamの改良型で、過去の勾配情報の最大値を用いて学習率を調整することで、Adamの学習率の不安定性を緩和する最適化手法である。この設計により、学習率が不必要に高くなる問題を抑制する。一方で、特定のタスクや環境においては、学習率が小さくなりすぎて学習が停滞するケースも報告されている。

AdaBound
AdamとSGD(確率的勾配降下法)の良い側面を組み合わせるための最適化アルゴリズムである。このアルゴリズムは、動的に学習率の上限と下限を調整する機能をAdamに加えることで、学習の安定性を高める。具体的には、訓練の初期段階ではAdamのように自動的に学習率を調整しながら、訓練の後半ではSGDのように固定された学習率に近づく。学習率の急激な変化や振動を抑制し、より安定した訓練が可能となる。

AMSBound
AMSGradの拡張版で、学習率の上限と下限を動的に調整する機能を加えた。この方法は、学習の初期段階でAdamオプティマイザーのように振る舞い、終盤には確率的勾配降下法(SGD)に近い挙動を示す。これにより、学習率が急激に上下する問題を緩和する。具体的には、AMSGradが不適切な学習率のスケーリングを修正する機能を持つ一方で、AMSBoundはそれに加えて学習率の「底」や「天井」も設定する。

ハイパーパラメータ
機械学習アルゴリズムの挙動を制御する外部設定項目を指す。設定(ハイパーパラメータの値)によって、モデルの精度、過学習や未学習のリスク、計算負荷などが影響を受ける。誤差関数においては、誤りをどの程度許容するかや正則化の強度を人が事前に手動で設定する場合もあるが、最適なハイパーパラメータを自動で選択する手法(例:グリッドサーチ、ランダムサーチ、ベイズ最適化)も存在する。

ランダムサーチ
ランダムサーチはハイパーパラメータの自動調整手法の一つであり、指定された範囲内でパラメータをランダムに選択してモデルを訓練する。これにより最適なハイパーパラメータの組み合わせを見つけ出すことが目的。ランダムサーチは計算コストが低く、高次元のハイパーパラメータ空間で効率的に探索できる利点がある。ただし、最適なパラメータを確実に見つけ出すわけではないため、他の手法と組み合わせて使用されることも多い。

グリッドサーチ
ハイパーパラメータの最適な組み合わせを見つけるための総当たり手法。事前に指定されたハイパーパラメータの範囲やリスト内の全ての組み合わせに対して学習と評価を行い、指標(たとえば、精度やF1スコアなど)が最も高くなるパラメータを採用する。しかし、この手法は計算コストが高く、パラメータの数が増えると指数関数的に計算時間が増加するという欠点がある。それに対してランダムサーチやベイズ最適化といった他の手法も存在し、それらは計算効率が高い場合がある。

バッチ学習、ミニバッチ学習
重みの更新タイミングは学習方法によって異なる。

逐次学習訓練データの各サンプルが来るたびにモデルの重みを更新する。このアプローチはリアルタイムでの学習が可能であり、計算資源が限られている場合やデータが時系列で到着するようなストリーミング環境に特に有用である。しかし、各更新がノイズに影響されやすく、一般には不安定な解になる可能性が高い。
ミニバッチ学習訓練データの一部分(通常はランダムに選ばれたサブセット)を用いて重みを更新する。この方法は計算効率と精度のバランスが取れており、最も一般的に用いられる手法である。ミニバッチのサイズはハイパーパラメータであり、調整によって学習の速度や安定性が変わる場合がある。また、ミニバッチ学習はGPUの並列計算能力を活かすことができ、大規模なデータセットでも効率的に学習できる。一方で、ミニバッチサイズや学習率といったハイパーパラメータの選択は、モデルの性能に大きな影響を与える可能性があり、慎重な設定が必要。
バッチ学習バッチ学習では訓練データ全体を使って重みを更新する。この更新は一度ではなく、多くの場合複数のエポックを通じて繰り返される。計算資源が豊富で、データが静的な場合にはこの方法が適している。しかし、データが大規模だったり、リアルタイムの更新が必要な場合は計算コストが高いという問題がある。

オンライン学習
学習データが時系列やイベントに基づいて逐次的に入ってくる場合、オンライン学習はその都度新たに入ってきたデータでモデルの学習を行う手法である。このアプローチでは、既存のモデルのパラメータを新しいデータに基づいて随時更新する。すなわち、モデルは一度学習した後も静的ではなく、新たなデータに適応して進化することができる。モデルを1から作り直す必要はなく、計算効率も高いため、リアルタイムのデータストリームに対応する場合などに有用。

データリーケージ
機械学習のモデル訓練で未来の情報やテストセットの情報が誤って訓練データセットに混入する現象を指す。これが起こると、モデルは過度に最適化される可能性があり、新しい未知のデータに対する性能が低下する可能性がある。データリーケージを防ぐためには、データの前処理と分割を注意深く行う必要がある。

交差(クロス)エントロピー
交差エントロピーは、一つの確率分布が別の確率分布とどれだけ違うかを定量化する指標である。具体的には、ある確率分布を真の分布として、もう一つの確率分布がそれにどれだけ近いかを評価するのに用いられる。交差エントロピー誤差は、多値分類だけでなく二値分類の損失関数としても一般的に使用される。この概念は機械学習、特に深層学習において、モデルが生成した確率分布と実際のデータ分布との違いを計算する際に重要な役割を果たす。

5.6 更なるテクニック

キーワード
ドロップアウト、早期終了、データの正規化・重みの初期化、バッチ正規化、過学習、アンサンブル学習、ノーフリーランチの定理、二重降下現象、正規化、標準化、白色化

ドロップアウト
過学習を防ぐための正則化の手法の一つ。学習時に一定の確率でニューロンを「ドロップアウト」すなわち無効化する。この操作により、学習の各イテレーションで異なるサブネットワークを使用することとなり、それが疑似的なアンサンブル学習のような効果を生む。ニューロンをランダムに無効化することで、特定のニューロンの過度な依存を防ぎ、過学習を抑制する。

早期終了(early stopping)
学習が進むにつれてテストデータに対する誤差関数の値は右肩上がりになる。上がり始めが過学習の始まりと考え、その時点が最適な解であるとして学習を止めることを早期終了という。ジェフリー・ヒントンは早期終了(early stopping)のことを“Beautiful FREE LUNCH”と表現。ノーフリーランチ定理という、「あらゆる問題で性能の良い汎用最適化戦略は理論上不可能」であることを示す定理を意識して発せられた言葉。最近の研究では一度テストデータに対する誤差が増えた後、再度誤差が減っていくという二重降下現象(double descentphenomenon)も確認されており、どのタイミングで学習を止めれば良いのかについては慎重に検討しなくてはならない。

ノーフリーランチの定理
コスト関数の最適化問題(関数の最大値・最小値を探す問題)に関して、米国の物理学者David H. Wolpert氏とWilliam G. Macready氏が提唱した定理。この定理によれば、コスト関数の極値を探索するあらゆるアルゴリズムは、全ての可能なコスト関数に適用した結果を平均すると、性能が等しくなる。言い換えれば、ある特定の問題に対して最適なアルゴリズムが存在するとは限らず、全ての問題に対して同じくらい効率的に機能する最適なアルゴリズムは存在しない。したがって、高性能で汎用性の高いモデルを作るためには、前提条件や前提知識をもとに、問題に特化したアルゴリズムを選択・設計する必要があると解釈できる。

二重降下現象
学習時において一度誤差が減少し、その後増加した後に、モデルの複雑さやデータサイズ、訓練のエポック数を増やすことで再び誤差が減少する現象のこと。これは過学習の影響を受けた後、さらなる学習によってモデルがデータの潜在的な構造を捉え、汎化性能が向上することを示している。

データの正規化
データの正規化は、特徴量のスケールを揃える手法であり、データの標準化も同様に機械学習全般に対して効果的である。しかし、活性化関数の影響により効果が薄れてしまうことがある。正規化や標準化を行っても、層を伝播していくにつれ分布が徐々に崩れていくため、層の数が増えてもデータの分布が偏らないような方法として、重みの初期値を工夫するアプローチが存在する。

正規化データ全体を一定の範囲に調整する処理のこと。最小値を0、最大値を1とするMin-Maxスケーリングが一例である。
標準化平均を0、分散を1とするスケーリング手法で、外れ値の影響を低減し、異なる尺度のデータを比較可能にする。
白色化各特徴量を無相関化し、さらにそれぞれの特徴量を標準化(平均0・標準偏差1)する手法。計算コストが高いため、標準化が一般的に用いられる。
欠損値の処理欠損しているデータを消去するか、統計的手法を用いて補完する。
名寄せ表記の揺れを統一し、同一の意味や概念を持つデータを同じものとして扱う処理。

重みの初期化
重みの初期化は、ニューラルネットワークの学習において重要なステップである。乱数にネットワークの大きさに合わせた適当な係数をかけることで、特定の活性化関数に適した初期値を設定する。例えば、シグモイド関数に対してはXavierの初期値を用いると効果的であり、これは1/√n(nは前層のノード数)を標準偏差とした分布からサンプリングされる。一方で、ReLU関数に対してはHeの初期値がよく用いられる。勾配降下法による最適化の探索経路は、重みの初期値に依存するため、適切な初期値の設定は学習の効率と精度に影響を与える。

アンサンブル学習
複数の学習器を個別に学習し、それらの出力を組み合わせることによって問題を解く手法。出力の組み合わせ方は、平均だけでなく、多数決や重み付きの投票なども含まれる。

基礎集計
データの傾向を事前に把握することは、機械学習のプロセスにおいて重要となる。基礎集計は、データ解析の初期段階で行われ、データの基本的な特性や傾向を理解するためのもの。具体的には、データセットの平均、分散、および標準偏差を計算し、散布図行列や相関行列を利用してデータ間の関係性を視覚的に確認する​。基礎集計は、データがどのように分布しているか、どの変数が他の変数と関係があるかを理解するための基本的な統計手法。デスクリプティブ(記述的)統計とインフェレンシャル(推論的)統計の両方を含む可能性があり、デスクリプティブ統計はデータをより良く記述するために使用され、インフェレンシャル統計はデータから推論を行うために使用される​。

特徴量エンジニアリング
特徴量エンジニアリングは、与えられたデータからモデルが認識しやすい特徴を作成するプロセスで、データの特徴を機械学習モデルに利用して予測や分類などの性能を向上させることを目的としている。データからドメイン知識を利用して新たな特徴量を生成したり、元データの特徴量に変更を加えたり、今ある特徴量を組み合わせて新しい特徴量を作り出すなどの方法がある。

バッチ正規化(Batch Normalization)
ディープニューラルネットワークの中間層の活性化を正規化する技術で、特に畳み込みニューラルネットワーク(CNN)の隠れ層において効果的。バッチ正規化は、ミニバッチ内のデータ分布を基に、各チャンネルごとに特徴を正規化し、その後、スケーリングとシフトを行う層である。このプロセスは、学習の高速化と安定化を図る目的で設計されている。バッチ正規化は、ミニバッチの統計(平均と分散)を使用して入力を正規化し、全ての入力次元に対して個別に正規化を実施する。

6. ディープラーニングの手法

6.1 畳み込みニューラルネットワーク(CNN)

キーワード
CNN の基本形、畳み込み層、プーリング層、全結合層、データ拡張、CNN の発展形、転移学習とファインチューニング、ネオコグニトロン、LeNet、サブサンプリング層、畳み込み、フィルタ、最大値プーリング、平均値プーリング、グローバルアベレージプーリング(GAP)、Cutout、Random Erasing、Mixup、CutMix、MobileNet、Depthwise Separable Convolution、NAS (Neural ArchitectureSearch)、EfficientNet、NASNet、MnasNet、転移学習、局所結合構造、ストライド、カーネル幅,プーリング,スキップ結合、各種データ拡張、パディング

CNN(Convolutional Neural Network)
CNN(Convolutional Neural Network)は、画像認識や処理に特化した人工ニューラルネットワークの一種で、少なくとも1つの層で一般的な行列の乗算の代わりに畳み込みという数学的演算を利用する。このネットワークは、畳み込み層とプーリング層、そして完全接続層から構成されている。CNNは、画像やビデオの認識に広く利用されている​。畳み込みニューラルネットワークは、グリッド状のトポロジを持つデータ、例えば画像の処理に特化しており、デジタル画像は視覚データのバイナリ表現である。通常のニューラルネットワークが行列の乗算を考える場合、畳み込みニューラルネットワークは特殊な技術である畳み込みを利用する​。

単純型細胞(S細胞)画像の濃淡パターン(特徴)を検出する
複雑型細胞(C細胞)特徴の位置が変動しても同一の特徴であるとみなす

ネオコグニトロンとLeNet
ネオコグニトロンとLeNetは、畳み込みニューラルネットワークの初期のモデルであり、特に画像認識タスクにおいて重要な役割を果たしている。ネオコグニトロンは1979年に福島邦彦によって提唱され、畳み込み層とプーリング層を交互に配置した多層構造を持っている​​。一方、LeNetはヤン・ルカンらによって1998年に公表され、ネオコグニトロンの概念を拡張し、バックプロパゲーションによる教師あり学習を導入した​。
ネオコグニトロンは、特徴抽出を行う単純型細胞に対応する畳み込み層と、位置ずれを許容する働きを持つ複雑型細胞に対応するプーリング層とを交互に階層的に配置したニューラルネットワークであり、自己組織化による学習が行われていた​。特に、ネオコグニトロンの学習方法として「add-if silent」というルールが用いられている。このルールにより、全ての後シナプス細胞が静かな状態にもかかわらず、非静かな前シナプス細胞が存在する場合に、新しい細胞が生成され、ネットワークに追加される​。
LeNetは誤差逆伝播法を用いた勾配降下法を利用して学習を行う。この方法は、ネットワークの誤差を計算し、それを逆伝播させることで、ネットワークの重みを更新する。LeNetの登場により、「誤差逆伝播によるCNNの学習」が一般的となり、以降の畳み込みニューラルネットワークの発展に大きく貢献した​​。

畳み込み層
畳み込み(convolution)処理を行い、主に画像から特徴を抽出するために使用される層。この層は、フィルタ(またはカーネル)を使用して入力データ(たとえば画像)上をスライドさせながら、データの局所的な特徴量を抽出する。フィルタの各値は、通常のニューラルネットワークの重みに相当し、これらのフィルタを用いて入力データとの積和演算を行う。積和演算の結果は、新しい2次元データ(特徴マップ)を生成し、これによりネットワークは入力データの特定の特徴を捉えることができる。畳み込み層の特徴は、形状を維持することで、画像などの形状を有するデータを正しく理解する可能性を高めることである。また、畳み込み処理は、局所受容野に対応しており、これによりモデルは「位置のズレ」に対して強く、移動不変性を獲得することができる。入力の次元を維持することで、位置関係などの重要な情報を保持しながらデータを次の層に渡すことができる。さらに、各フィルタは特定の特徴を活性化するため、畳み込み層を通過することで、ネットワークは入力データから重要な特徴を抽出し、後続の層でこれらの特徴を利用することができる。

プーリング層
プーリング処理は、ニューラルネットワーク内での計算量を減らし、特徴を抽出する際の空間的な変動に対するロバストネスを向上させるために使用される。このプロセスは、指定された小領域ごとに一定の操作を行うことによって、画像のサイズを縮小する。プーリングには主に最大値プーリング(max pooling)平均値プーリング(average pooling)の二種類が存在し、前者は各領域の最大値を取り、後者は各領域の平均値を計算する。プーリング層は、通常、畳み込み層の後に配置され、畳み込み層で抽出された特徴マップのサイズを縮小する役割を果たす。プーリング層と畳み込み層の主な違いは、プーリング層には学習すべきパラメータが存在しない点である。この特性により、プーリング層はモデルのパラメータ数を増加させずに、計算量を削減し、特徴の抽出を助けることができる。また、プーリング層の操作は固定であり、学習中に変更されることはない。プーリング層を通過する際に、特徴マップはダウンサンプリングされ、その結果、特徴マップの空間的な解像度は低下する。

全結合層
通常のニューラルネットワークにおける隠れ層と出力層に相当し、これまでの出力を1次元に変換して特定のカテゴリーに分類できるようにする層である。CNN(LeNet)では、畳み込み層・プーリング層を繰り返した後、全結合層という通常のニューラルネットワークと同じ構造を積層する。全結合層はCNNの最後の部分であり、特徴量を集約し、クラススコアなどの目的を最適化するために利用される。最近のCNNの手法では、全結合層の代わりにGlobal Average Pooling (GAP)が利用されることが増えている。GAPは特徴マップの空間領域全体に対して平均プーリングを行う層で、物体認識系CNNの終盤層などにおいて使用される。GAPは、特徴マップの各要素を加算する方法であり、これによりパラメータ数を大幅に削減できる。具体的には、GAPは全結合層を置き換えるプーリング操作で、最後のmlpconv層で分類タスクの各対応カテゴリーに対する1つの特徴マップを生成することを目的としている。

データ拡張(data augmentation)
手元にある画像から擬似的に別の画像を生成するアプローチで、ランダムにいくつかの処理(例:切り取り、反転、回転、ノイズの追加)を施して新しい画像を作り出す。データの「水増し」とも呼ばれ、データ拡張の効果は大きく、画像認識の分野では必須の処理である。ただし、回転などにより画像の意味が変わってしまう場合があるので注意が必要である。

Cutout画像の一部分を遮蔽したようなデータを擬似的に生成
マスク処理を行う対象領域の大きさとアスペクト比を一定にする
Random Erasing画像にランダムな一部矩形領域をマスクする
マスク処理を行う対象領域の大きさとそのアスペクト比をランダムに設定
Mixup2枚の画像を合成して実在しない画像を擬似的に生成
CutMixCutoutとMixupを組み合わせたもの

画像データの前処理
画像データに対しては、OpenCVのライブラリを使用して、前処理を施すことが可能である。OpenCVは画像処理に広く利用されているライブラリで、色空間の変換、幾何学的変換、二値化、画像の平滑化、モルフォロジー変換など前処理を施すことができる。

グレースケール化カラー画像を濃淡画像に変換して計算量を削減する手法
平滑化画像のノイズを減らすために使用される。ノイズは周辺の値とは無関係に発生し、高周波成分となると考えられる
OpenCVでは、ガウシアンフィルタや単純なボックスフィルタを利用して、画像の平滑化を行うことができる
ヒストグラム平坦化ヒストグラム平坦化は、画像のコントラストを調整する手法
画像の濃淡比が改善され、特定の特徴をより明瞭に識別できるようになる

CNNの発展形
AlexNet以降、より深いネットワークモデルが続々と登場した。VGGやGoogLeNetは、それぞれILSVRC2014で優れたパフォーマンスを示し、GoogLeNetは22層で構成されていた。さらに「超」深層になると識別精度が落ちるという問題に直面する。その後、更に深いネットワークを実現するためにSkip connectionと呼ばれる「層を飛び越えた結合」を加えたネットワークであるResNetが登場。ResNetは2015年のILSVRCで優勝し、152層で構成されている。層が深くなっても、層を飛び越える部分は伝播しやすくなり、様々な形のネットワークのアンサンブル学習になっているという特徴をもつ。現在では100層以上のネットワークが構築されることもある

MobileNet
2017年にHoward et al.によって発表された。モバイル端末や組み込みビジョンアプリケーション向けに設計された効率的なモデルのクラスで、深層ニューラルネットワークを構築するためにDepthwise Separable Convolutionを使用している​。MobileNet V1の原論文では、通常の畳み込み層の演算処理を空間方向とチャンネル方向の2段階に分けて行うDepthwise & Pointwise Convolutionが紹介されている​​。このアーキテクチャは、ネットワークのサイズを小さくし、学習時間を短縮し、かつそれなりの性能を維持することを特徴としている。また、従来の畳み込みフィルターの代わりにDepthwise畳み込みフィルターと1×1の畳み込みフィルターを組み合わせることで計算量を削減している​。

Depthwise Separable Convolution
Depthwise Separable Convolution(DSC)は、伝統的な畳み込み演算を改善した技術であり、その処理を空間方向とチャネル方向に分割することが特徴である。この技術は、畳み込み演算を二つのステップ、すなわちDepthwise ConvolutionとPointwise Convolutionに分けて実行する。Depthwise Convolutionでは、各入力チャネルに単一の畳み込みフィルタを適用し、その後Pointwise Convolutionがこれらの結果の線形組み合わせを作成する。この手法により、従来の畳み込みよりも計算量とモデルのパラメータ数が大幅に削減される。通常の2D畳み込み層では、入力チャネル数、カーネルの空間解像度、出力チャネル数に基づいて多くのパラメータが必要になるが、Depthwise Separable Convolutionを使用することでこれらのパラメータを大幅に減少させることができる。この技術の利点は、特にリソースが限られた環境、例えばモバイルデバイスなどでのディープラーニングアプリケーションにおいて顕著である。計算効率とメモリ使用量の両方を改善することで、優れたパフォーマンスを提供することができる。MobileNetやXceptionなど、一般的なモデルアーキテクチャでもこの技術が採用されており、計算リソースが限られた環境での効率的な動作が可能である。

Neural Architecture Search(NAS)
Neural Architecture Search (NAS)は、1990年代に遡る技術であり、主にAutoMLのサブフィールドとして、ニューラルネットワーク(NN)の構造を自動的に最適化する手法である。NASは探索空間、探索戦略、そしてパフォーマンス推定戦略の3つの主要なポイントに焦点を当てている。2016年には、RNNと強化学習を用いたNASの手法が提案され、この手法ではRNNを使用してニューラルネットワークのモデル記述を生成し、強化学習を用いて生成されたアーキテクチャの期待精度を最大化する。NASのバリエーションとしては、ResNetのResidual Blockのようなセットを生成する単位として導入する工夫が行われたNASNetや、認識精度だけでなくモバイル端末での計算量も考慮する工夫を導入したMnasNetがある。特にMnasNetは、モバイルデバイスに最適化された畳み込みニューラルネットワークで、精度とレイテンシの間の良好なトレードオフを達成するモデルを識別できるように設計されている。

MnasNet
Googleが開発し、NASNetのAutoMLをベースにモバイルデバイス向けに設計されたCNNモデル。このモデルは、モバイルニューラルアーキテクチャ検索を通じて発見され、モデルのレイテンシを主な目標に組み込むことで、精度とレイテンシの間の良好なトレードオフを達成することを目指している。AutoMLの進歩に触発され、モバイルCNNモデルの設計がAutoMLアプローチから利益を得られるかどうかを検討した結果、MnasNetが開発された。自動検索されたCNNモデルと比較して、MnasNetはモバイルサイズのNASNet-Aよりも2.3倍高速で、トップ1の精度が1.2%高くなっている。

EfficientNet〈実装はこちら〉
EfficientNetは、Google Brainが開発した、従来よりも大幅に少ないパラメータ数(平均で4.7倍、最大で21倍の削減)で高い精度を達成できるモデル。このモデルは、AutoML MNASフレームワークを使用したニューラルアーキテクチャ探索に基づいて開発されており、モデルはシンプルで理解しやすく、転移学習も非常に高い精度で行うことができる。EfficientNetの特徴は、”Compound Scaling”と呼ばれるスケーリング方法を導入しており、これによりネットワークの3つの重要な次元、すなわち深さ、幅、および解像度を均一にスケールアップすることができ、これによりモデルのサイズ、精度、および計算効率の間の長期的なトレードオフを解決している。

BiT(Big Transfer)
Google Brainが2019年に発表した画像認識モデル。10億個にも及ぶ膨大なパラメータ数で、バッチ正規化やドロップアウト、Weight Decayなどの技術を使用せずに、代わりに「グループノーマライゼーション + 重み標準化」を使用し、SoTAとなった。BiTハイパーパラメータと呼ばれる、「画像サイズ」「MixUp」「学習率スケジュール」を調整して学習を行う。大規模なデータセットで事前学習を行った後、ターゲットタスクに対してモデルを微調整することで、効率的なサンプル利用とハイパーパラメータチューニングの簡素化を実現している。

転移学習
ImageNetで学習したモデルなどを新たなタスクに適用する技術。転移学習では、新たな層を追加し、その層だけではなく、必要に応じて事前学習モデルの一部または全部を微調整することがある。転移学習の目的は、既に学習されたモデルから知識を転送し、新しいタスクにおける学習を効率化し、学習時間と必要なデータ量を削減することにある。

ファインチューニング
既に訓練されたネットワークの重みを新しいネットワークの訓練の初期値として使用し、新しいデータに対して学習を行う手法で、ニューラルネットワーク全体または一部の層に対して実施できる。ファインチューニングされない層は「凍結」され、バックプロパゲーション中に更新されない。通常、ファインチューニングは新しいターゲットデータセットに対して、既に訓練されたディープ・コンボリューショナル・ニューラルネットワーク(DCNN)の重みを新しいターゲットデータセットに適応させるために、重みを変更して行われる。また、「凍結」されたモデルベースの上位層のいくつかを解凍し、新たに追加されたモデルの部分と上位層の両方を同時に訓練することで構成されている。

フィルタサイズ(カーネル幅)
入力データサイズ(W,H)、フィルタサイズ(FH,FW)、ストライドS、パッディング幅Pとする。

HoutWout
1 + (H + 2P – FH) / S1 + (W + 2P – FW) / S

入力データサイズ(4,4)、フィルタサイズ(3,3)、ストライド1、パッディング幅1とすると、主力される行列サイズは4×4となる。

6.2 深層生成モデル

キーワード
生成モデルの考え方、変分オートエンコーダ (VAE)、敵対的生成ネットワーク (GAN)、ジェネレータ、ディスクリミネータ、DCGAN、Pix2Pix、CycleGAN

生成モデルの考え方
生成モデルは、観測可能な変数と目的変数の同時確率分布に基づく統計モデルであり、データの確率分布をモデル化し、その分布からサンプリングすることでデータを生成することができる​。生成AIモデルは、入力された訓練データの規則性や構造を学習し、同様の特性を持つ新しいデータを生成する​。深層生成モデルは、ディープニューラルネットワークを生成モデルとして学習し、高次元で綺麗な画像データや音声データなどを生成するモデルの総称とされる。これは機械学習アルゴリズムの一種で、既存のデータに類似した新しいデータを生成する目的で使用され、特に画像生成、テキスト生成、音声合成などのタスクに使用される​​。深層生成モデルは、観測データを生み出すその背後にある分布を学習するモデルで、ディープラーニングと生成モデルの組み合わせである​​。また、深層生成モデルは高画質な画像を生成できることから注目を集めているが、最近の手法はモデルが複雑になり、従来の深層学習用ライブラリを用いて実装することが困難になっている​​。

変分オートエンコーダ(Variational AutoEncoder)
通常のオートエンコーダと同様にエンコーダ部分とデコーダ部分を持つモデルであり、その構造は入力データを潜在空間にマッピングし、そしてその入力を再構築することを学習する​1​。しかし、変分オートエンコーダは通常のオートエンコーダとは異なり、オートエンコーディング変分ベイズアルゴリズムに基づいて学習される確率的オートエンコーダ型ニューラルネットワークである​​。VAEは、入力データの潜在的な確率分布を仮定し、その分布のパラメータを見つけることを試みる。エンコーダはボトルネック層で単一の出力値の代わりに確率分布を出力し​​、この確率分布は通常、平均と分散で表現される。VAEのエンコーダは入力データを潜在変数に変換し、この潜在変数は統計分布のある1点となる。デコーダはこの統計分布からランダムにサンプリングした1点を復元し、新しいデータを生成する。また、VAEのトレーニング中には、データの対数尤度に対する証拠の下限(Evidence Lower Bound、ELBO)を最大化することが求められる​​。

敵対的生成ネットワーク(GAN)
教師なし学習のアルゴリズムであり、イアン・グッドフェローと彼の同僚によって2014年に考案された。GANは、ジェネレータ(generator)とディスクリミネータ(discriminator)という2種類のニューラルネットワークで構成されている。これらのネットワークは、ゼロサムゲームの枠組みの中で競合し合う。ジェネレータはデータの分布を捕捉し、ディスクリミネータはサンプルが訓練データから来たのかジェネレータから来たのかを予測する。ディスクリミネータによる予測結果はジェネレータにフィードバックされ、このプロセスを通じてジェネレータは徐々に本物のデータに似た新しいデータを生成する能力を向上させる。最終的には、GANは本物と見分けがつかないような新しい画像を生成することを実現する。

DCGAN(Deep Convolutional GAN)
DCGAN (Deep Convolutional GAN)は、敵対的生成ネットワーク (GAN) の一種で、2015年にA.Radfordらによって発表された。このネットワークは、生成ネットワーク(Generator)と識別ネットワーク(Discriminator)の2つのネットワークに畳み込みニューラルネットワーク(CNN)を利用し、それぞれにおいて特定のガイドラインに従って設計されている​​​。具体的には、Discriminatorではプーリング層をストライデッド畳み込み層に、Generatorではプーリング層をフラクショナル・ストライデッド畳み込み層に置き換える。また、GeneratorとDiscriminatorの両方でバッチ正規化(Batch Normalization)を使用する。DCGANはGANの直接的な拡張であり、DiscriminatorとGeneratorにそれぞれ畳み込み層と転置畳み込み層を明示的に利用することが特徴である。これにより、①大きな画像の生成、②ネットワークの深い層、③安定した学習が可能となる。特に、Discriminatorはストライド2の畳み込み層を、Generatorはストライド2の転置畳み込み層を利用し、全結合層(Affine Layer)は使用せず、畳み込み層のみを使用する。さらに、GeneratorではReLU関数を、最終層ではTanh関数を使用し、Discriminatorでは全層でLeakyReLU関数を使用する。これらの設計は、生成器の学習時に識別器を通過する際に負の値をカットすると学習が進まなくなるため、LeakyReLU関数を使用することが推奨されている​。

Pix2Pix
Pix2PixはGAN (Generative Adversarial Network) を利用した画像生成アルゴリズムの一種で、画像から画像への変換(image-to-image translation)を目的として設計されている。Pix2PixはConditional Generative Adversarial Network (cGAN) の一例で、与えられた入力画像に基づいてターゲット画像を生成する。このアルゴリズムは、入力画像から出力画像へのマッピングを学習するために、入力画像とそれに対応する出力画像のペアを訓練データとして使用する必要がある。広範な用途に適用可能で、例えば、建物の立面図を建物の画像に変換したり、Google Mapsの画像をGoogle Earthの画像に変換するなどのタスクを実行できる。Pix2Pixは2017年にUC Berkeleyの研究者によって提案され、Isolaらによる2016年の論文 “Image-to-Image Translation with Conditional Adversarial Networks” で紹介され、2017年のCVPRで発表された。

Cycle GAN
CycleGANは、ペアのない画像の変換を学習する技術であり、スタイル変換に利用されることがある。このモデルは、一般的には敵対的生成ネットワーク(GAN)の一種で、画像から画像への変換、特にペアになっていない画像間の変換に焦点を当てている​。CycleGANの主な目的は、2つの異なるドメイン間で画像を変換することであり、変換プロセスは2つのマッピング、つまりドメインXからドメインYへのマッピングとドメインYからドメインXへのマッピングを含む​​。これにより、変換が逆変換と一致することを保証し、変換の一貫性を保つ。CycleGANはCycle Consistency Lossを利用しており、これによりペアになっていないデータを利用して学習が可能であるため、源泉と目標のドメイン間に1対1のマッピングが不要となる​​。CycleGANは、ディープラーニングのモデルで、画像のスタイル変換を得意とする。スタイル変換とは、データの外見的特徴を変換することであり、「画像から画像への翻訳」(Image-to-Image Translation)とも呼ばれる​。また、CycleGANは4つの主要な部分から構成されており、それぞれがA領域からB領域へ、およびB領域からA領域への変換を担当する。具体的には、A⇒B用の生成器AB, 識別器AB、B⇒A用の生成器BA, 識別器BAが存在し、これらの構成要素がCycleGANの重要な構成要素となっている​​。馬の画像をシマウマに変換することができる。

Stack GAN
Stack GANは、テキストの説明に基づいて画像を生成する技術であり、2段階の画像生成プロセスから構成されている。最初のステージであるStage-I GANは、テキストの説明を基にして低解像度の画像を生成し、次のステージであるStage-II GANは、Stage-I GANの結果とテキストの説明を入力として受け取り、高解像度の写真リアルな画像を生成する。具体的には、Stage-I GANはテキストのエンコードを利用して、大まかな形状、ベースとなる色や背景画像の領域を描画する。一方、Stage-II GANは、Stage-I GANの出力とテキストの説明から高解像度の画像を出力することに焦点を当てている。

6.3 画像認識分野

キーワード
物体識別タスク、物体検出タスク、セグメンテーションタスク、姿勢推定タスク、マルチタスク学習、ILSVRC、AlexNet、Inception モジュール、GoogLeNet、VGG、スキップ結合、ResNet、Wide ResNet、DenseNet、SENet、R-CNN、FPN、YOLO、矩形領域、SSD、Fast R-CNN、Faster R-CNN、セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーション、FCN (Fully Convolutional Netwok)、SegNet、U-Net、PSPNet、Dilation convolution、Atrous convolution、DeepLab、Open Pose、Parts Affinity Fields、Mask R-CNN

6.3.1 物体(画像)識別タスク

物体(画像)識別タスク〈実装はこちら〉
画像に写る物体名称を出力するタスクであり、確信度が最も高い名称を結果として出力するクラス分類にあたる。CNNで活躍しているモデルがこの分野にあたる。具体的なタスクの例としては、特定の物体や動物、人物を識別するタスク、道路標識や車を識別する自動運転車のタスク、医療画像分析における異常検出や診断支援のタスクなどがある。

ILSVRC
ILSVRC (ImageNet Large Scale Visual Recognition Challenge)は、2010年から2017年まで毎年実施されていた大規模な画像認識コンテストである。このチャレンジは、ImageNetデータセットのサブセットを使用しており、その目的は、コンピュータビジョン技術の進歩を促進し、その時点での技術の進歩状況を評価することであった​。具体的には、大規模なスケールでのオブジェクト検出と画像分類のアルゴリズムを評価することを目的としており、これにより研究者は様々なオブジェクトに対する検出の進歩を比較できるようになっていた。このコンテストは、ラベリング作業の高コストを利用して、広範囲のオブジェクトにわたる検出の進歩を比較できるようにするという高レベルの目的を持っていた​。ILSVRCは、アルゴリズムを用いて学習したモデルがImageNetのデータを分類し、検出する能力を競う場となっていた​。

AlexNet
ディープラーニングの歴史において重要なターニングポイントとなったモデルであり、2012年のImageNet Large Scale Visual Recognition Challenge (ILSVRC) という画像認識コンテストで優勝したことで広く知られている。このコンテストは、1000クラスの画像を識別するタスクであり、入力は1000クラスの画像のうちの1つ(例えば、猫や犬など)、出力は1000個の数字のベクトルとなる​​。この年のILSVRCでの優勝はただの勝利ではなく、AlexNetは当時主流だったサポートベクターマシンのモデルに対して10.9%の誤差を示し、この結果がディープラーニング技術の優位性を広く認知させた​。この勝利は、畳み込みニューラルネットワーク (CNN) を利用したディープラーニングの革新的な可能性を示し、以降のディープラーニングの研究と開発に多大な影響を与えた​​。

GoogLeNet
GoogLeNetは、層を深くするだけでなく、異なるフィルタサイズの畳み込み処理を並行して行うInceptionモジュールを導入することで、異なる視野を持つ特徴を効果的に捉えることができる。Inceptionモジュールは、1×1、3×3、および5×5の畳み込み層を並行して適用し、それぞれの畳み込み計算の結果を結合する。また、1×1の畳み込みは、各畳み込み計算の前に実行され、パラメータ数を削減する。勾配消失問題を回避するために、補助的な分類器が導入され、非常に深いネットワークの収束を改善することを目指している。これにより、役立つ勾配を下層に押し込むことで、下層をすぐに有用にし、収束を改善する。2014年には、Googleは複数のInceptionモジュールを重ね合わせ、2つの補助分類器を追加して勾配の消失を防ぎ、ネットワークの深さを増加させることを提案し、これにより22層の開発につながった。補助分類器の主な目的は、正則化を提供し、同時に勾配消失問題を回避し、勾配を順方向に導くことである。

Inception (インセプション)モジュール
Inceptionモジュールは、畳み込みニューラルネットワーク(CNN)の一部として導入される特定のモデルブロックであり、それは最適な局所的な疎構造を近似することを目的としている​​。具体的には、単一のフィルタサイズに制限されるのではなく、単一のイメージブロック内で複数のフィルタサイズを使用することを可能にし、それらを次の層に連結して渡すことができる​。Inceptionモジュールは、異なるフィルタサイズの複数の畳み込み層を同時に通すことができ、これによりネットワーク内の異なるスケールの特徴を同時に捉えることが可能となる。

VGG
2014年にOxford大学のVisual Geometry Groupによって提案された深層畳み込みニューラルネットワーク(CNN)のモデルで、特にVGG-16およびVGG-19と呼ばれるバリエーションがあり、それぞれ16層および19層の畳み込み層を有する。VGGのアーキテクチャは、小さな3×3のフィルタを利用し、その他のコンポーネントとしてはプーリング層と全結合層を含む。このモデルは、ILSVRC(ImageNet Large Scale Visual Recognition Challenge)2014で2位を獲得し、特に単純で分かりやすい構造が特徴である。VGGは、畳み込み層とプーリング層から成るどノーマルなCNNで、AlexNetと同様に全結合層を持っており、パラメータが多く、その結果ネットワークが重いのが欠点である。VGGネットワークは、当時定番であった物体画像認識CNNのAlexNetを、3 x 3の畳み込み層のみに改良することで深い16層-19層の構造での学習を可能にし、認識率を進歩させた構造である。

ResNet
Microsoft Researchの研究者によって2015年に提案された新しいアーキテクチャを持つ人工ニューラルネットワークで、Residual Network(残差ネットワーク)とも呼ばれている。このアーキテクチャは、いわゆる「identity shortcut connection」またはSkip connection(スキップ結合)と呼ばれる概念を導入し、モデルに一つまたは複数の層をスキップすることを可能にしている。このアプローチにより、ネットワークは数千の層で訓練することが可能になり、パフォーマンスに影響を与えずに深いネットワークを実現できる。スキップ接続は、層の入力を参照して重み層が残差関数を学習し、アイデンティティマッピングを実行し、それを層の出力と加算してマージする。ResNetアーキテクチャは、2つの基本的な設計ルールに従っており、各層のフィルターの数は出力特徴マップのサイズに応じて同じであり、特徴マップのサイズが半分になると、各層の時間複雑度を維持するためにフィルターの数が2倍になる。ResNetは、最も人気のある畳み込みニューラルネットワークのアーキテクチャの一つであり、導入時にいくつかの記録を更新し、勾配が消失または爆発する問題を解決するために残差ブロックという概念を導入した。ResNetは、様々な形のネットワークのアンサンブル学習になっているわけではないが、これにより層が深くなっても伝播しやすくなる。

Wide ResNet
超多層でも学習がうまくいくように考えられたSkip connectionを導入したResNetが優勝。Wide ResNetは、Residual Block内の畳み込みに対してチャネル数を増やす(幅wideを広げる)ことや、ドロップアウトを実装することで対応しており、結果として、16層のWide ResNetでも、従来の1000層のResNetよりも良い精度を出すことができる。

DenseNet
主に「Denseブロック」と呼ばれる構造を利用する。このDenseブロックでは、サブブロック間の各層を密に全てスキップ接続し、各層(特徴マップサイズが一致するもの)が直接互いに接続される。この設計は、層間の密接な連結を可能にし、前の層の出力を後続の層の入力として使用できる。このため「DenseNet」と名付けられ、これによりネットワークの深さを増やし続けることができる。DenseNetはResNetの進化版と見なされるが、いくつかの基本的な違いがある。ResNetは、前の層を次の層に加算する方法を使用するが、DenseNetはそれらを直接接続する。このため、DenseNetは、各層間の情報の流れと再利用を向上させ、勾配の消失や爆発の問題を緩和し、訓練を効率的に行うことができる。

SENet
SENet(Squeeze-and-Excitation Network)は、ネットワークが情報を含む特徴に対する感度を増加させることで、それにより後続の変換で利用可能な特徴を捉えることを目指す。これを実現するために、squeezeとexcitationの操作を導入する​。SENetは、チャンネル間の依存関係を明示的にモデル化してチャンネルごとの特徴応答を適応的に再調整する「Squeeze-and-Excitation」(SE)ブロックにより構築される​​。SENetの名前自体は、特定のネットワークを指すものではなく、”SE”をResNetやInceptionなどの既存のネットワークと組み合わせて作成されるネットワークの総称​。
2017年にILSVRCで25%の精度向上を達成し1位を獲得した​。これはチャンネル間の依存関係を明示的にモデル化することにより実現された。この概念は、既存のネットワークアーキテクチャにSEブロックを簡単に追加することで適用でき、これにより性能の向上が見られる​。CNNの研究は通常、空間エンコーディングの品質を向上させることに焦点を当てているが、SENetはチャンネル毎の特徴応答を適応的に再調整することで、チャンネル間の依存関係を明示的にモデル化する​​。

6.3.2 物体検出タスク

物体検出タスク〈実装はこちら〉
入力画像に写る物体クラスの識別とその物体の位置を特定するタスクは、オブジェクト検出(Object Detection)と呼ばれる分野に属し、バウンディングボックスと呼ばれる矩形の領域を利用して、物体の位置やクラスを認識する。バウンディングボックスは、物体を囲む抽象的な矩形で、物体の位置、クラス、そして信頼度を指定する。バウンディングボックスは、矩形の左上の座標と右下の座標によって決定される​。画像内に含まれる関心対象の物体を自動的に背景から区別し、その位置を特定することが可能である。物体の位置は、矩形領域(四角形)とし、その左上の座標と右下の座標を出力する。

特徴1段階モデル (One-stage detectors)2段階モデル (Two-stage detectors)
代表モデルYOLO
SSD
Faster R-CNN
速度速い
画像を一度だけ処理して、物体のクラスと位置を同時に予測する。これは、事前に生成された領域提案(候補オブジェクトの境界ボックス)を使用せずに、オブジェクトの分類と境界ボックスの回帰が直接行われるためである​
処理が遅い
2つのステップを経るため、処理速度は1段階モデルよりも遅い
構造シンプル
構造が単純で、リアルタイム処理に適している。効率が高く、直接的なアーキテクチャのおかげで効率的である​
複雑
構造が複雑で、計算資源を多く消費することがある
精度精度は若干劣ることがある
高速な処理を優先するため、精度は2段階モデルに比べて少し劣ることがある。これは、1段階モデルが高速な推論を提供する一方で、2段階モデルが高い位置特定と認識精度を提供するためである​
精度が高い: まず物体が存在する領域を検出(Region Proposal)し、その後で各領域に対してクラスを予測するため、精度が高い。2段階モデルは、Faster R-CNNのようにRegion Proposal Network (RPN)を使用して領域提案を生成し、その後に領域提案をオブジェクト分類と境界ボックス回帰のためのパイプラインに送る。この2つのステップは、RoI (Region of Interest) Pooling層によって分けられることがある​

R-CNN
RCNN(Region-based Convolutional Neural Networks)は、画像から物体候補領域をSelective Searchという方法で抽出し、それぞれの領域をCNNに入力する。このプロセスは主に3つのステップから構成される。最初のステップでは、画像が入力され、カテゴリに依存せず、何かしら検出可能と予想される領域を約2000個ほど提案する。次に、CNNを使用して、画像特徴を固定長の特徴ベクトルに変換する。最後のステップでは、各領域から得られた特徴量に対してサポートベクターマシン(SVM)を使用し、その領域に含まれる物体のカテゴリを決定する。2013年に登場した手法。

Fast R-CNN
Fast R-CNNは、元のR-CNNの構造を改善し、高速化した物体検出モデルである。Fast R-CNNは、R-CNNと同様にSelective Searchアルゴリズムを使用してオブジェクトの候補領域を検出し、その候補領域に対して物体認識を行う。ただし、R-CNNが各候補領域を独立して処理するのに対し、Fast R-CNNは画像全体を一度に処理して特徴マップを作成し、その特徴マップ上で候補領域に相当する部分を切り出して識別処理を行う。このようにして、候補領域からの特徴抽出を一度のフォワードパスで行うことで計算とメモリの効率を大幅に向上させている。また、Fast R-CNNは、複数の事前学習済みImageNetネットワークを実験しており、それぞれに5つの最大プーリング層と5〜13の畳み込み層が含まれている。このネットワークは、画像とその画像上で生成された領域提案のリストを入力として変更されている。各領域提案に対応するCNN特徴量をプーリングし、重複する領域の計算を共有することで、R-CNNよりも効率的な検出器となっている。

Faster R-CNN
Faster R-CNNは、Fast R-CNNを改善した物体検出モデルで、Region Proposal Network (RPN)をCNNモデルと組み合わせることにより、領域提案の処理を高速化している。RPNは、フルイメージの畳み込み特徴を検出ネットワークと共有し、ほぼコストフリーの領域提案を可能にしている​​。Faster R-CNNは、RPNとFast R-CNNの2つのモジュールを持ち、これらは統合されており、推論の高速化を実現している​​。前のモデルであるR-CNNとFast R-CNNは、物体候補の検出にSelective Searchという非機械学習の手法を使用していたが、これは精度と速度の面で問題となっていた​。ROIプーリング(Region of Interest Pooling)は、畳み込みニューラルネットワークを使用した物体検出タスクで広く使用される操作で、非一様サイズの入力に対して最大プーリングを実行し、固定サイズの特徴マップ(例えば、7×7)を取得することを目的としている​。この操作は、候補領域の特徴を集約し、それを2つのステージ間で受け渡すために使用される領域プーリング層で、Faster R-CNN シリーズの研究で確立されている​。各ROIから小さな特徴マップ(例えば、7 × 7)を抽出し、その後Fast R-CNNのようなモデルで、特徴は分類され、バウンディングボックスの回帰が実行される​。

YOLO
YOLO (You Only Look Once) は、以前は複数ステップのプロセスだったものを単一のニューラルネットワークを使用して物体の分類とバウンディングボックスの予測を同時に行うことで単一ステッププロセスに組み合わせたもの​。これにより、画像(またはビデオ)がネットワークを一度だけ通過するだけで済むため、以前の物体検出アルゴリズム(R-CNNやそのアップグレード版のFaster R-CNNなど)と比較して、より効率的で高速に動作する。このアルゴリズムの名前は、画像(またはビデオ)がネットワークを一度だけ通過することから、「You Only Look Once(一度だけ見る)」と名付けられている。YOLOの基本的な仕組みは、入力画像をS×S個の小さな正方形のグリッドに分割し、各グリッド内でバウンディングボックスの要素を求め、それと同時に各小さな正方形が何を映しているかを判断する。そして、これらの情報を組み合わせて物体を検出する。

SSD
SSD (Single Shot Detector) は、YOLO (You Only Look Once) と同様に、CNN (Convolutional Neural Networks) の途中の特徴マップから領域単位で物体らしさと短径領域を出力する。しかし、SSDはデフォルトボックスという概念を導入し、これらのデフォルトボックスは短径領域のテンプレートのようなパターンに対するズレを出力する工夫を持っている。このデフォルトボックスは、物体の位置と形状の予測を助ける。比較すると、SSDはフィルタサイズをYOLOよりも小さく設定しているため、YOLOよりも高速で動作することができる。また、SSDはFaster RCNNと同等の精度を実現しているが、実際の性能は使用するデータセットやタスクによって異なる可能性がある。

6.3.3 セグメンテーションタスク

セグメンテーションタスク〈実装はこちら〉
画像の各ピクセルを特定のクラスやオブジェクトに分類するタスクを指す。セグメンテーションは日本語で「分割」を意味し、このタスクは画像を複数のオブジェクトに分割する目的で用いられる。具体的には、セグメンテーションタスクは画像の各ピクセルに対して、それが属するクラスやオブジェクトを識別し、密なピクセル単位のセグメンテーションマップを生成することを目的としている。

セマンティックセグメンテーション
画像の各画素にクラスラベルを割り当てるプロセスで、ディープラーニングアルゴリズムを利用して実行されることがある。このタスクは、画像の各画素を特定のクラスやオブジェクトにカテゴライズし、それにより画像全体の密なピクセル単位のセグメンテーションマップを生成することを目的とする。同一クラスのオブジェクトは同じラベルを共有し、セマンティックセグメンテーションは、画像内のクラス、位置、個々の要素の境界を識別することを可能にする。

インスタンスセグメンテーション
画像内の各個別の物体を検出し、識別し、これらの物体の境界を描き出すタスクを含む。この技術は、画像中の各物体インスタンスごとにセグメンテーションマップを生成することで、各物体を別々のエンティティとして扱う。これは、同じクラスの全ての物体を単一のエンティティとしてグループ化するセマンティックセグメンテーションとは異なる。インスタンスセグメンテーションは、物体検出の個体ごとの位置検出と、セマンティックセグメンテーションのピクセルレベルでの意味検出の両方の特徴を持っている。各インスタンスに一意のラベルを割り当てることで、1つの画像に複数の車が写っている場合でも、それぞれの車を別々の物体として認識することが可能である。また、インスタンスセグメンテーションは、Mask R-CNNなどのいくつかのディープラーニングアルゴリズムを使用して実行される。

パノプティックセグメンテーション
セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせた技術であり、画像中の各物体を個別に識別し、それぞれの境界を正確に描写する手法。従来のセグメンテーション技術とは異なり、背景と物体、物体と物体の関係を詳細に把握することが可能である。この技術は、画像内の全てのピクセルに対してクラスラベルを予測し、一意のIDを付与することを目的とする。特に、個々の物体をそれぞれ分離しつつ、道路や建物などはひとまとめにすることができるのは、セマンティックラベルとインスタンスIDの両方をエンコードし、画像内のすべてのピクセルに一意のIDを付与することにより実現される。

FCN(Fully Convolutional network)
FCN(Fully Convolutional Network)は、全結合層を排除し、畳み込み層だけで構成されたニューラルネットワークの一種で、2015年にセマンティックセグメンテーションのために提案された。このネットワークは、畳み込み、プーリング、およびアップサンプリングのようなローカリー接続された層のみを使用している。全結合層を使用せずに済むため、パラメータが少なくなり、ネットワークの学習が速くなる​​。FCNは、最初にCNNを使用して画像の特徴を抽出し、その後1×1の畳み込み層を使用してチャンネル数をクラス数に変換し、最終的に特徴マップの高さと幅を入力画像と同じサイズに変換する基本的な設計を持っている​。これにより、画像の各ピクセルに対してクラスラベルを割り当てることができ、任意のサイズの入力画像を扱うことが可能になる。逆畳み込み層(デコンボリューション層)を用いて画像のアップサンプリングを行い、特徴マップの画像サイズを元の入力画像と同じ大きさに戻すことで、画像の各ピクセルに対して詳細なクラス情報を取得できる。

SegNet
エンコーダネットワーク、対応するデコーダネットワーク、およびピクセル単位の分類層から構成されている。エンコーダネットワークのアーキテクチャは、VGG16ネットワークの13の畳み込み層とトポロジカルに同一である​​。エンコーダとデコーダは対称的な構造を持っており、RGB画像が与えられると、画像に存在する車や道路などにラベルを付け、異なる番号のラベルを異なる色で表現する仕組みとなっている​。デコーダネットワークの役割は、低解像度のエンコーダの特徴マップをフル入力解像度の特徴マップにマッピングし、ピクセル単位で分類することである​。また、SegNetはエンコーダの特徴をコピーせず、Maxプーリングからのインデックスをコピーすることにより、多くの特徴マップを利用している

U-Net
収縮パスと拡張パスという2つの主要な部分から構成されている。収縮パスは典型的な畳み込みネットワークで、各層は畳み込みを実行した後にReLU(Rectified Linear Unit)と最大プーリング操作を行っている。この収縮過程では、空間情報は減少し、特徴情報は増加する。一方、拡張パスはアップコンボリューションと収縮パスからの高解像度特徴との連結を通じて特徴と空間情報を組み合わせる。この構造により、U-NetはU字型のアーキテクチャを形成している。U-Netの特徴的な構造であるSkip Connectionは、拡張パス(デコーダ側)と収縮パス(エンコーダ側)との間で特徴マップを連結することにより、エンコーダ側の低レベルの詳細な特徴マップとデコーダ側の高レベルのセマンティック特徴マップを組み合わせる。このSkip Connection構造により、畳み込みやプーリングを通じて失われる情報を最小限に抑えることができ、高解像度のセグメンテーションを実現することが可能となる。

PSPNet
セマンティックセグメンテーションのためのネットワークで、エンコーダとデコーダの間にPyramid Pooling Moduleを追加している。このPyramid Pooling Moduleは、異なるサブリージョンサイズでのアダプティブなプーリングを利用して、エンコーダから得られた特徴マップを異なるスケールでプーリングし、それらを結合することで、物体のサイズや形状にかかわらず効果的に特徴を捉える。これにより、画像全体や物体の大きさに応じた特徴をマルチスケールで捉え、より精度の高いセグメンテーションが可能となる。

Dilation convolution(Atrous convolution)
カーネルの走査位置を膨張させることで、少数の層だけで効率的に広い受容野を確保することが可能になる。具体的には、膨張畳み込みはカーネルに「穴」を挿入してカーネルを「膨らませる」ことで、カーネルの幅を拡大し、通常はカーネル要素の間に l – 1 のスペースが挿入される​。膨張畳み込みは、もともとはウェーブレット分解から着想を得たもので、”atrous convolution”、”algorithme à trous”、または”hole algorithm”とも呼ばれる​。この方法は、畳み込みニューラルネットワーク(CNN)において、受容野を拡大し、パラメータの数を増やさないで済むようにすることを可能にする​​。膨張畳み込みの主な目的は、CNNの受容野を拡大して、コンピュータビジョン問題をより効果的に解決することである。これは、特にセマンティックセグメンテーションタスクにおいて、多尺度の特徴を広範に捉えることが重要であるため、セグメンテーションの分類器の受容野を拡大し、多尺度のコンテキストを組み込むことが求められる。

DeepLab
Atrous Convolutionを導入したモデルで、この技術は畳み込みの効果的な視野を調整・制御するためのツールとして利用される。Atrous Convolutionは‘atrous/dilation rate’と呼ばれるパラメータを使用して視野を調整するシンプルかつ強力な技術であり、フィルタの視野を拡大することができる一方で、計算量やパラメータ数は増えない​。この技術はフィルタの視野を拡大し、より広範なコンテキストを組み込むことを可能にし、視野の制御に効率的なメカニズムを提供することで、正確なローカリゼーションとコンテキストの同化の間で最適なトレードオフを見つけることができる​​。具体的には、Atrous Convolutionは特徴の応答が計算される解像度を明示的に制御し、フィルタの視野を拡大することで、より広範なコンテキストを組み込むことができるが、パラメータ数や計算量は増加しない。

6.3.4 姿勢推定タスク

姿勢推定タスク〈実装はこちら〉
人の頭や足、手などの関節位置を推定するタスク。監視カメラで人の異常行動を認識したり、スポーツ映像から人の動作を解析したりすることができる。

Open Pose リアルタイムで画像内の複数人物の2D姿勢を検出する手法。Part Affinity Fields (PAFs)と呼ばれる非パラメトリックな表現を使用して、画像内の個人と体の部位を関連付ける学習を行う​。ヒートマップとPart Affinity Fields (PAF)をカスケード推定する2ブランチ構成CNNを用いて、人物部位間の遮蔽に厳しい状況下でも、動画の各フレームから実時間で複数人物の2D姿勢の推定を行う​​。PAFは、2Dで人の姿勢推定を行うモデルで、関節の位置を推定しつつ、affinityの推定を行う。このアプローチはボトムアップ方式を採用し、リアルタイムな検出を行いながら高い精度が得られる。

マルチタスク学習 
複数のタスクを1つのモデルで対応することをマルチタスクという。Faster R-CNNやYOLOなどの物体検出モデルは、物体クラスの識別と物体領域の位置検出を同時に行っているのでマルチタスクといえる。

Mask R-CNN Faster R-CNNによる物体検出だけでなく、セグメンテーションも同時に行うマルチタスクモデル。セグメンテーション部分は物体検出した領域ごとに行うので、インスタンスセグメンテーションにあたる。

6.4 音声処理と自然言語処理分野

キーワード
データの扱い方、リカレントニューラルネットワーク (RNN)、Transformer、自然言語処理における Pre-trained Models、LSTM、CEC、GRU、双方向 RNN (Bidirectional RNN)、RNN、Encoder-Decoder、BPTT、Attention、A-D 変換、パルス符号変調器(PCM)、高速フーリエ変換 (FFT)、スペクトル包絡、メル周波数ケプストラム係数 (MFCC)、フォルマント、フォルマント周波数、音韻、音素、音声認識エンジン、隠れマルコフモデル、WaveNet、メル尺度、N-gram、BoW (Bag-of-Words)、ワンホットベクトル、TF-IDF、単語埋め込み、局所表現、分散表現、word2vec、スキップグラム、CBOW、fastText、ELMo、言語モデル、CTCSeq2Seq、Source-Target Attention、Encoder-Decoder Attention、Self-Attention、位置エンコーディング、GPT、GPT-2、GPT-3、BERT、GLUE、Vision Transformer、構文解析、形態要素解析

6.4.1 音声認識

音声認識〈実装はこちら〉
人間の声を解析し、文字に変換するソフトウェアプログラムまたはハードウェアデバイスとして定義されている​。この技術はコンピューターやデジタルデバイスに人間の音声を理解させることで、フォームの記入や電話の発信などのタスクを自動化することを可能にし、スマートホームの制御やスマートスピーカーの指示、さらには電話やタブレットのコマンドを実行する用途にも利用できる。

音声合成
テキストから話している音声を作り出すこと。音声認識と同様にこれまでは隠れマルコフモデルによって行われていた推論が深層学習に置き換えられることで、音声認識の精度は向上している。

A-D変換(Analog to Degital Conversion)
音声は時間とともに連続的に変化するアナログデータであり、コンピュータで扱うには離散的なデジタルデータに変換する必要がある。この音声を離散的なデジタルデータに変換する処理のことをA-D変換と呼ぶ。音声はパルス符号変調(PCM : Pulse Code Modulation)という方法で変換されるのが一般的。

パルス符号変調器(PCM)
連続アナログ信号をディジタル信号に変換する基本的な方法として、PCM (Pulse Code Modulation)が広く利用されている。PCMはアナログの音声データをデジタル化する方式であり、この変換は主に3つのステップで行われる。初めに、アナログ信号の振幅を一定の周期でサンプル化するステップがあり、これを「サンプリング」と呼ぶ。サンプリングによって得られたデータは次に「量子化」され、最後に二進データに変換される「符号化」のステップを経てデジタル表現に変換される。非常に正確なクロックが必要とされるのは、サンプリングの間隔を一定に保つためである。特に音声信号を扱う場合には、PCMは基本的なデジタル音声処理技術として広く利用されており、音楽CDやWAVファイルなどで採用されている。PCMの本質的な操作としては、サンプリング、量子化、符号化の3つのステップがあり、これらのステップによってアナログ信号はデジタル信号に変換される。

高速フーリエ変換(FFT : Fast Fourier Transform)
音声信号は常に変化しているため、その中の周波数成分も変わる。これを追いかけて解析するために、FFT(高速フーリエ変換)が用いられる。FFTは、ディスクリートフーリエ変換(DFT)の計算を効率化し、計算量をO(N^2)からO(NlogN)に減らすアルゴリズムである。これにより、信号の時間領域から周波数領域への変換が高速で行える。FFTは信号解析のための便利なツールでもあり、パワースペクトル解析やフィルターシミュレーションなどを助ける。FFTを使用することで、信号の周波数内容や位相などの情報が得られる。一方、周波数スペクトルは信号に含まれる周波数成分の振幅と位相を示し、音声や色、電磁波の信号解析に利用される基本的な概念である。FFTを用いることで、効率的に周波数スペクトルを解析できる。

スペクトル包絡
音声信号の特徴を識別し、異なる音声や音素を区別するのに用いられる。スペクトル包絡は音色の違いを表すスペクトル上の緩やかな変動を表した線であり、このスペクトル包絡の違いによって、「高さ」「長さ」「強さ」「音色」のうち、音の違いとして認識される「音色」の違いを認識することができる​。スペクトル包絡は人間の声道の形状に由来する成分であり、言語情報や声質の情報を含むことができる​​。音声の特徴量の中でも特に重要であり、音声認識においては音響モデルと単語辞書・言語モデルの主な要素として利用される

メル周波数ケプストラム係数(MFCC : Mel-Frequency Cepstrum Coefficients
音声技術において特徴抽出を行う方法として用いられ、主に話者認識や音声認識の分野で利用されている。この方法は、音の信号をいくつかのパラメータに変換する。メル周波数ケプストラム(MFC)は音の短期パワースペクトルの表現であり、非線形メル周波数スケール上の対数パワースペクトルの線形コサイン変換に基づいている​。メル周波数ケプストラムはメルスペクトラムに対するケプストラムであり、MFCの生成には主に離散コサイン変換が用いられる​​。MFCCは、メル尺度に基づいて周波数をスケーリングし、人間の耳が聞く周波数をより密接にマッチさせるために設計されている。具体的には、ヘルツ(f)で測定された周波数は、次の式を使用してメル尺度に変換される: Mel (f) = 2595log (1 + f/700)​

フォルマント
MFCCを用いると入力された音のスペクトル包絡に相当する係数列が得られ、これが「音色」に関する特徴量となり、音声認識等で使用する。なおスペクトル包絡を求めるといくつかの周波数でピークを迎えるが、このピークをフォルマントと呼び、周波数の低いピークから第1フォルマント(F1)、第2フォルマント(F2)と表現する。音声の母音によって大きく異なり、フォルマントは音声の周波数スペクトルに現れる、周囲よりも強度が大きい周波数帯域であり、この山に当たる周波数帯をフォルマントという。フォルマントは複数個存在する場合もあり、それぞれの周波数をF1, F2と表記する。声の波形に現れるフォルマントは声道の形状から強く影響を受け、個体差や性差もフォルマントの違いを生む原因となる​。

フォルマント周波数
フォルマントのある周波数をフォルマント周波数という。入力された音声の音韻が同じであればフォルマント周波数は近い値になるが、個人差による多少のズレは生じる。しかし、フォルマント周波数は特に母音の種類を同定する際に重要で、低い順にF1、F2と名付けられている。また、フォルマント周波数は音声のスペクトルにおける強度が高い領域を示し、特定の周波数の音声が強くなるポイントを表す。さらに、フォルマントは言葉を発する時にできた周波数のピークで、発する母音、音程、人物によって変化する。音声は人の声帯の振動で生成され、声道を通り、口唇から発せられる。声道には複数の共鳴周波数があり、この強くなった周波数をフォルマント周波数と呼ぶ。

音韻
言語の音のシステムを研究する学問分野で、音のパターンや構造に焦点を当てる。音韻学は音声のカテゴリー化の組織を研究し、言語における音声音のどのように組織され、意味を伝えるために使用されるかを調査する​​。一般的に、音韻学の基本単位は音素であり、個々の音声音(たとえば/p/)はしばしば単一の字素、または文字(たとえば、文字p)によって表されることができる​。音韻学は、言語がその電話または手話の構成要素をどのように体系的に組織するかを研究する言語学の分野であり、特定の言語バラエティの音声または記号システムを特に指すこともできる​。音声認識においては、音韻学は音素を基本単位とし、音声データをテキストに変換するシステムの設計に役立つ。

音素
言葉の基本的な音の単位であり、意味を変える能力を持つ。具体的には、音声認識においては、入力音を音素の系列に変換し、それを使用して言語モデルを通じて入力のテキストを見つける過程が含まれる。音素は人間の音声生成システムによって生成される最小の知覚的に異なる音声単位である。

音声認識エンジン
仮想アシスタント、音声入力システム、音声翻訳、アクセシビリティ支援技術など多岐にわたる

HMM(隠れマルコフモデル)
隠れマルコフモデル(HMM)は、連続データをモデル化する比較的単純な方法で、モデルの状態が隠れている統計的マルコフモデルである。マルコフモデルは、データの背後にあるが未知であり、観測データのみが知られていて、状態に関する情報は知られていない。HMMは、観測された変数のセットから未知(隠れた)変数のシーケンスを予測するための確率的グラフィカルモデルのクラスである​。HMMは、隠れた状態と観測の関係を2つの確率セット、すなわち遷移確率と発生確率を使用して表現する。遷移確率は、ある隠れた状態から別の隠れた状態に遷移する確率を記述する​​。隠れマルコフモデルは1960年代に導入され、音声認識や音声合成などの時間依存データの分析に適用されてきた​。隠れマルコフモデルでは、状態は直接観測されず、出力(事象)のみが観測される​。音声合成や音声認識の世界では、HMMの統計的手法により大量のデータを集め、多数のコーパスを用意するものが一般的で長い間用いられてきたが、2016年にはWaveNetと呼ばれる高性能モデルが登場した。

WaveNet
WaveNetは2016年にDeepMind社により開発された深層ニューラルネットワークで、生の音声波形を生成することができるモデルである。このモデルは、直接波形をモデリングするニューラルネットワーク法を使用して、比較的リアルな人間のような音声を生成できる。特に、WaveNetは自然な音声を生成することができ、人間が話しているかのような音声を出力することが可能で、英語と中国語において、既存のテキストトゥスピーチ(TTS)技術を圧倒する品質を実現している。また、WaveNetは畳み込み処理を行っているが、元の文章で言及されたようにCNN(畳み込みニューラルネットワーク)ではなく、完全な畳み込みの確率的で自己回帰なディープニューラルネットワークである。

メル尺度
メル尺度は音高の知覚的尺度で、この尺度における差が同じであれば、人間が感じる音高の差も同じになることを意図している。1937年にStanley Smith Stevens、John Volkman、Edwin Newmanによって提案された。この尺度と通常の周波数測定値との基準点として、1000Hzの音(聴取者のしきい値から40dB上)を1000メル(mels)の音高と定義する。約500Hzより高くなると、音高が同じだけ増加したと感じる音程(音高の差)は大きくなっていく。結果として、周波数で4オクターヴ上がる間にメル尺度では2オクターヴしか上がらない。メル尺度は、リスナーによって同じ距離と判断される音程の尺度で、この尺度と通常の周波数測定との参照点は、1000Hzの音を、聴取者の閾値から40dB上の音として、1000メルの音高と等価にすることによって定義されている。メル尺度は信号の周波数の対数変換で、この変換の核心的なアイデアは、メル尺度上で等距離の音が人間によって等距離と知覚されるということである。また、メル尺度は音響周波数の準対数関数で、知覚的に類似した音程(例:オクターヴ)が全聴覚範囲にわたって幅が等しいように設計されている。

CTC(Connectionist Temporal Classification)
CTCは、RNNやLSTMネットワークをトレーニングして、タイミングが可変なシーケンス問題を扱うためのスコアリング関数である。整列されたデータセットは不要で、入力シーケンスの任意のポイントでラベルを予測することができる。CTCは音声認識や時系列データ分析に広く利用され、学習では通常の交差エントロピー損失の代わりに特定のスコアリング方式を使用する。これは入力と出力のサイズが一致しなくてもよいため、音声認識や手書き認識にとって理想的なアルゴリズムであるといえる。

6.4.2 自然言語処理(Natural Language Processing)

自然言語処理(Natural Language Processing)
自然言語処理は、人々が日常的に使っている言葉や文章をコンピュータで処理する技術の集合であり、これには話し言葉や書き言葉、そして書籍や論文などの多くの自然言語の形式が含まれる。この技術は、言葉の意味を解析し、言葉の中に含まれる情報を抽出することを可能にする​。自然言語処理は人工知能と言語学の一分野でもあり、コンピュータに自然言語の特徴を理解させることで、翻訳や文章生成などさまざまなタスクを行うことができる。

形態素解析
形態素解析は、テキストを「形態素」と呼ばれる意味を持つ最小単位に分割し、それぞれの形態素の文法上の属性(品詞の種類や活用形など)を明らかにする処理である。形態素は言語で意味を持つ最小単位で、例えば、「彼女は美しいドレスを着ていました」という文を解析すると、「彼女/は/美しい/ドレス/を/着て/いました」と分解される。この分析は、自然言語処理(NLP)の重要な手法の一つで、機械が人間の言語を理解しやすくするために用いられる。また、形態素解析は検索エンジンや機械翻訳、かな漢字変換などにも利用される。日本語や東アジアの諸言語における形態素解析の処理では、平文を分かち書きにした各要素を入力表現に使用することが行われる。

構文分析
形態素解析によって文中の形態素が特定された後、構文解析はそれら形態素間の関係性を可視化し、構文木や依存関係を生成する作業を含む​。構文解析のプロセスは、文節間の依存関係に基づいて行われることが一般的で、これにより文の構造が明らかにされる​。また、構文解析は係り受け解析とも関連があり、解析結果の曖昧性を解消するためにさらなる情報や機能が必要とされることがある​​。

含意関係解析
2つの文の間に含意関係が成立するかを判定すること。

意味解析
構文解析から意味を持つまとまりを判定をすること。

文脈解析
文単位で構造や意味を判定すること。

照応解析
照応詞の指示対象や省略された名詞、代名詞などが指す対象を推定または補完すること。

談話解析
文章中の文と文の意味的な関係や話題の推移を判定すること。

n-gram
n-gramは、与えられたテキストまたは音声サンプルから連続するn個の項目のシーケンスである。これらの項目は、アプリケーションに応じて、音素、音節、文字、単語、または塩基対であることができる​​。n-gramは、言語データセット内のn個の隣接する文字(句読点と空白を含む)、音節、またはまれに全単語を表すシリーズであり、音声記録データセットから抽出された隣接する音素、またはゲノムから抽出された隣接する塩基対を表すこともある​。簡単に言うと、n-gramは連続するn個の単語や文字のまとまりを表す​。特に、nが1の場合はuni-gram、nが2の場合はbi-gram、nが3の場合はtri-gramと呼ぶ​。n-gramは、自然言語処理の分野で、テキストや音声の予測を行うn-gramモデルの基盤として使用される。 n-gramモデルは、単語の出現を、その前のN – 1個の単語の出現に基づいて予測する​。

Bag-of-Words(BoW)
単語を単位として文書を表現する方法であり、文書を単語の集合として表現する際に、どの単語が含まれるかに注目し、単語をベクトル化(数値化)する方法と言える。具体的には、文書中の各単語の出現回数を数え、それを基にベクトルを構築する。BoWモデルでは、文書を単語の頻度を表す固定長のベクトルとして表現する。これは「単語の袋」とも呼ばれ、文書中に出現する全てのユニークな単語にインデックスを割り当て、各単語が何度文書中に出現したかを数え上げる。この手法はテキストのクラスタリングや分類など、多くのAIアプリケーションで利用されている。BoWは非常に単純で柔軟な方法であり、文書から特徴を抽出するために多くの方法で利用できる。ただし、このモデルは単語の順序を考慮しないため、文脈は捨てられる。BoWモデルは任意のテキストを固定長のベクトルに変換するプロセスであり、このプロセスはしばしばベクトル化と呼ばれる。

Bag-of-n-grams
BoWでは単語がバラバラに保存されているため出現順序の情報は失われてしまうが、局所的な出現順序が意味を持つ場合がある。そこでn-gramとBowを組み合わせたBag-of-n-gramsを利用することもある。

ワンホットベクトル(one-hot vector)
単語をコンピュータで扱う際は文字列としてではなく数値に変換して扱うのが一般的で、単語もベクトルとして入力する必要がある。各単語に異なる整数値を順に割り当ててID化を行い、このIDに相当するベクトルの次元の値だけが1で他全てを0となっているワンホットベクトルに変換するという方法がある。ワンホットベクトルは値が0か1しかない離散的なベクトルで、1をとる次元が1つしかないため情報が疎である。次元数は単語の種類数と等しいため、非常に高次元であるという特徴がある。具体的なワンホットベクトルの例としては、(0, 1, 0, 0, 0, 0)のように、1つの成分が1で残りの成分が全て0であるようなベクトルがある。また、ワンホットベクトルは、K次元ベクトルのうち1つの次元だけが1であり、他の次元の値は全て0であるベクトル表現で、one-hot 表現 (one-hot representation)とも呼ばれる。

TF-IDF(Term Frequency-Inverse Document frequency)
文書中の単語の重要度を評価する手法で、TF値とIDF値という2つの値を掛け合わせたものである。TF (Term Frequency) は、1つの文書内での単語の出現頻度を示し、具体的には、文書内のすべての単語の出現回数のうち、その単語の出現回数が占める割合を表す。一方、IDF (Inverse Document Frequency) は、ある単語が出現する文書の割合の逆数の対数を取ったものである。これにより、文書集合全体での単語の珍しさを測定する。TF-IDF値は、TF値とIDF値の積として計算され、この値が大きいほど単語の重要度が高いとされる。改良手法にOkapi BM25がある。

Okapi BM25
TF-IDFを改良した手法とされ、特に検索エンジンにおける文書の順位付けに用いられる。TF-IDFと同様に、単語の出現頻度と文書の逆文書頻度を基に単語の重要度を測定するが、文書の長さ (DL: Document Length) も考慮に入れる点が異なる。具体的には、BM25は文書が短いほど順位が高く、長いほど順位が低くなる傾向がある。この改良により、TF-IDFの欠点である文章中の単語数の違いが影響を与える問題をある程度緩和することができる。

単語の埋め込み
単語を固定された長さのベクトルで表現する技術。これにより、単語間の意味的な関係や類似性を計算機が理解しやすくなる。単語の埋め込みは、大量のテキストデータを分析し、各単語の周囲の単語との関係を捉えることで学習される。得られたベクトルは、単語の意味的な特性を捉え、単語間の類似性を計算するのに使える。よく知られている単語埋め込みの手法には、Word2VecやGloVeなどがある。

局所表現
ワンホットベクトルを用いて単語を表現する手法。ワンホットベクトルは値が0か1しかなく、離散的である。このベクトルでは1をとる次元が1つしかないため情報が疎であり、次元数が単語の種類数と等しいため非常に高次元である。ワンホットベクトルでは、1つの単語に対して(1,0,0,0,…,0)のように1つだけ「1」として残り全てを「0」で表現する。そのため扱う単語が多くなればなるほど巨大でスパースな行列ができあがることになる。局所表現は、ボキャブラリーサイズ(扱う全単語の数)の次元数を持ち、該当インデックスだけ1で他の値が0というワンホットベクトルを用いることから、1つの概念を1つの成分で表すという特性を持っている。

分散表現
分散表現は、単語を数百次元のベクトルで表現する手法であり、単語をベクトル空間に埋め込むことで、意味や文脈をエンコードできる​。単語を低次元の実数値ベクトルで表現することが目的で、これにより計算量やメモリの節約、さらに意味のエンコードが可能となり、手法によっては文脈のエンコードも可能となる​。分散表現の一例として、Word2Vecがある。Word2Vecは、単語の分散表現を学習する手法であり、単語を線形空間に写し、単語の意味の近さが単語同士の距離に反映されるようになる。この分散表現学習は自然言語処理の分野における成功の1つで、これはある種の意味的な演算が行えることを示した。

word2vec
単語をベクトルとして表現する技術で、2013年にGoogleのトーマス・ミコロフ氏によって提案された。この技術は分布仮説(単語の意味はその周囲の単語によって形成される)に基づいており、浅い2層ニューラルネットワークを用いて単語の言語コンテキストを再構築するように訓練された一連のモデル群である。word2vecは単なる一つのアルゴリズムではなく、モデルのアーキテクチャや最適化のファミリーとして存在し、大規模なデータセットから単語の埋め込みを学習するために使用される。word2vecには、スキップグラムとCBOW(Continuous Bag Of Words)の2つのモデルが存在し、これらは「ベクトル空間モデル」や「単語埋め込みモデル」とも呼ばれる。スキップグラムは、ある単語が与えられたときにその周囲の単語を予測するモデルであり、CBOWは周囲の単語が与えられたときに中央の単語を予測するモデルである。単語のベクトル表現により、単語間の意味的な近さの計算や、単語の加減演算が可能となる。word2vecの演算事例として、V(Prince) – V(Male) + V(Female) ≒ V(Princess)という式が知られている。このような演算により、単語の意味的な関係を算出することができる

スキップグラム
「ある単語が与えられたときに、その周囲に現れる単語を予測する」という問題を解決するために設計されたモデルで、この問題を解決することで各単語の分散表現ベクトルを効率よく学習することができる。具体的には、スキップグラムはターゲットとなる単語からコンテキスト(周囲の単語)を予測するタスクを考える。これは、Continuous Bag of Words (CBOW)モデルとは逆で、CBOWはコンテキストからターゲット単語を予測する。スキップグラムとCBOWは、Word2Vecと呼ばれるフレームワーク内で利用される2つの主要なアルゴリズムである。スキップグラムは、特定のターゲット単語が与えられたときに、それに隣接する単語を予測することに焦点を合わせている。このモデルは、ターゲット単語から周囲の単語を予測することによって、単語の分散表現ベクトルを学習する

CBOW
CBOW(Continuous Bag of Words)は、単語ベクトルを生成するために使用されるニューラルネットワークモデルで、単語間の意味的および統語的関係を捉えることができる。このモデルは、2013年にTomas Mikolovによって提案され、特定の単語をその周囲の単語のコンテキストから予測することを目的として設計されている。CBOWは、単語の順序を無視し、入力を単語の集まりとして扱う投影ベースのモデルである​​。具体的には、CBOWモデルは「ある単語Aの周辺に存在する単語から、単語Aを推測するネットワークを作成し、そこから単語Aを表すベクトルを抽出する」ものとされている​。このモデルは、与えられた全てのコンテキストワード(中央のワードを除く)から中央のワードを予測する。例えば、文中に2単語のウィンドウサイズがある場合、CBOWはその中央の単語が最も可能性が高いものとして示される​​。また、CBOWモデルでは、コンテキスト(または周囲の単語)の分散表現が組み合わされて、中央の単語を予測する。これに対して、スキップグラムモデルでは、入力単語の分散表現を使用してコンテキストを予測する。

fastText
fastTextは、FacebookのAI Research (FAIR) labによって開発された自然言語処理のライブラリで、2015年11月9日に初めてリリースされた​。このライブラリは、単語埋め込みの学習とテキスト分類を行うことができる​​。fastTextは、word2vecと同様に単語の意味や文脈を捉えるための手法を提供するが、独自のアルゴリズムを用いて高速な学習と高品質なベクトル表現を実現している​。また、fastTextは単語を構成する部分文字列の情報を含めることが可能で、これにより訓練データに存在しない単語であっても単語埋め込み計算を行うことができる。さらに、学習に要する時間が短いという特徴もある。fastTextはWikipediaとCommon Crawlを用いて訓練した世界中の157言語にわたる訓練済みデータを利用できる。

ELMo
word2vecやfastTextによって得られる分散表現は各単語に対して1つのベクトルを割り当てるが、これは多義語の多様性を捉えることができない。それに対して、ELMo(Embeddings from Language Models)は文脈を考慮した分散表現を得る手法であり、文中の他の単語の情報を利用して、各単語の分散表現を計算する。ELMoは2層のLSTMをベースとしたモデルを使用し、大規模コーパスでの言語モデルの事前学習を行う。具体的には、forwardとbackwardの2つのLSTMを用いて、各時点での単語の隠れ層の表現を計算し、これらの表現を組み合わせて文脈に応じた単語の分散表現を得る。これにより、同一の単語でも文脈によって異なる意味を持つ場合に、それぞれの意味に対応した異なる分散表現を得ることが可能となる。

RNN(リカレントニューラルネットワーク)
再帰構造(内部に閉路)をもち、時系列データを扱うために開発された再帰型ニューラルネットワークモデル。再帰構造によって、隠れ層に情報を一時的に記憶できるようになった。自然言語処理でよく用いられる。過去の入力による隠れ層(中間層)の状態を保持し、現在の入力に対する出力を求めるのに使用する。過去に入力された単語列から次に来る単語を予測するもので、音声処理でも自然言語処理でも使用される。RNNは内部メモリを持ち、そのメモリを使って入力の可変長シーケンスを処理することができる。この内部メモリにより、RNNは過去に計算されたことを「記憶」することができる。さらに、RNNにはループ機構があり、この機構によって情報は一ステップから次のステップに流れる。この情報は、前の入力の表現である隠れ状態となる

リザバーコンピューティング
リカレントニューラルネットワークの理論から派生した計算フレームワークで、入力信号を高次元の計算空間にマップすることにより動作する固定された非線形システム、すなわちリザバーと呼ばれるものを使用する​。リザバーコンピューティングは時系列データの処理に適しており​、近年では様々な実データの時系列パターン認識に応用されてきている。リザバーコンピューティングのシステムは、入力を高次元空間にマップするリザバーと、リザバー内の高次元状態からのパターン分析を行う読み出し部分から構成されている。リザバーは固定されており、読み出し部分のみが単純な方法、例えば線形回帰や分類により訓練される。

教師強制
リカレントニューラルネットワーク(RNN)の学習時に各タイムステップでの入力に教師データを利用する方法で、特に文章生成などある時間の出力が次の時間の入力になるリカレントな接続を持つモデルに適用可能である​。具体的には、「I have a pen」の例で考えると、初めの入力 ‘I’ から出力 ‘have’ を予測し、次のタイムステップの入力に教師データを用いることができる。教師強制を利用することで、学習の収束が早くなる可能性があるが、教師データが使えない状況では出力に誤差が生じる可能性がある。訓練時に入力として、前の時間の正解値(目標値)を利用する​​。また、教師強制は学習が安定しやすく収束も早いが、過学習を起こしやすいとも指摘されている​。教師強制の特徴として、フィードフォワードネットワークと異なり、RNNでは教師信号を出力との誤差のみに用いるのではなく、ネットワークのフィードバックの代わりに用いることができ、これによって1時刻前の正確な出力値をフィードバックとして用いることができる​。

LSTM(Long Short-Term Memory)
RNNが抱えている課題である勾配消失問題を解決するために考えられた内部にゲート構造をもつRNNの改良モデル。「CECという情報を記憶する構造」と「データの伝搬量を調整する3つのゲートを持つ構造」で構成されている。CECは誤差を内部に留まらせて勾配消失を防ぎ、入力ゲート、忘却ゲート、および出力ゲートを持ち、これらのゲートは情報の流れを制御し、何を記憶し、何を忘れるかを決定する役割を果たす。LSTMにおける忘却ゲートはシグモイド関数で、入力信号を0から1の間で調整する。

CEC(Constant Error Carousel、定誤差カルーセル)
LSTM(Long Short-Term Memory)の重要な構造であり、一部のユニットは定誤差カルーセル(CECs)と呼ばれている。各CECは、活性化関数fとして恒等関数を使用し、固定重み1.0の自己接続を持つ​​。CECは、勾配の消失問題を緩和するためにローカルエラーの逆流を一定に保ち、時間をかけての逆伝播とリアルタイムの再帰調整の両方で訓練できる​。CECは内部の活性化(状態と呼ばれる)を固定重み1.0の再帰接続で維持し、この接続は忘却ゲートによってリセットされることがある

BPTT(BackPropagation Through-Time)
BackPropagation訓練アルゴリズムを再帰型ニューラルネットワーク(RNN)に適用したもので、時系列データなどのシーケンスデータに対して用いられる。具体的には、RNNは各タイムステップごとに1つの入力を受け取り、1つの出力を予測する。BPTTは、全ての入力タイムステップを展開し(unrolling)て、それに基づいて誤差を計算し逆伝播することでRNNを訓練する。このプロセスは、時間軸に沿って誤差を逆伝播させることによって、RNNのパラメータを更新する。また、BPTTは、計算とメモリ使用を制限するために、時刻を切り取る(truncating)必要があり、効率的な計算のために逆伝播の際に中間値をキャッシュする。さらに、BPTTは特定の種類のRNN、例えばElmanネットワークの訓練に使用できる勾配ベースの手法であり、多くの研究者によって独立して導出されたものである。なお、RNNの逆伝播計算では、再帰型ネットを展開し、全ての入力と全ての中間層の値を記憶しておいて、パラメータを更新するBPTT法がよく使われる。

GRU(Gated Recurrent Unit)
GRU(Gated Recurrent Unit、ゲート付き回帰型ユニット)は、再帰型ニューラルネットワークの一種であり、LSTM(Long Short Term Memory)の簡略化されたバージョンと見なすことができる。LSTMと比較して、GRUはゲートの数が一つ少なく、計算量が削減されている。具体的には、GRUにはリセットゲートと更新ゲートの2つのゲートが存在し、出力ゲートは存在しない。これにより、GRUはパラメータの数が少なくなり、一般的にはLSTMよりも学習が容易かつ高速である​。さらに、GRUの構造は、長期的な依存関係を効果的に学習し、RNNの勾配消失問題を克服するのに役立っている​。GRUは2014年にKyunghyun Choらによって導入され、特定の特徴を入力するか忘れるかを制御するゲーティングメカニズムを提供している。しかし、GRUはコンテキストベクトルまたは出力ゲートを欠いており、これがLSTMよりもパラメータが少ない原因となっている​。このように、GRUはLSTMの計算効率と軽量化を目指した改善版といえる。

双方向RNN(Bidirectional RNN)
通常のRNN(Recurrent Neural Network)の拡張型で、入力シーケンスを2つの方向から、すなわち正方向と逆方向から同時に処理することができるネットワークである。このモデルは2つのRNNを持ち、一方は入力をその元の順序で処理し、もう一方は逆の入力シーケンスを処理する。そして、出力は両方のRNNの隠れ状態に基づいて計算される​。各RNNは、過去の情報と未来の情報の両方を利用して出力を生成することができ、これによりBiRNNは、例えば、機械翻訳や文章の推敲、フレーム間の補完などのタスクで非常に効果的とされている。

seq2seq(sequence-to sequence)
2014年にGoogleによって開発された。このモデルは特に機械翻訳、要約、対話生成などのタスクで有用であり、ある系列データを別の系列データに変換する機能を持つ。Seq2seqはEncoder-Decoderモデルを採用しており、例えば翻訳や対話モデルの実装に応用されている。また、RNN(Recurrent Neural Network)だけでなく、LSTMやGRUなどの改良されたRNNも使用されることがある。

RNN エンコーダ-デコーダ
seq2seqモデルとも呼ばれ、入力された系列データをエンコーダが処理し、文脈を表す固定次元のベクトルに変換する。このベクトルは、デコーダによって再び時系列データに変換される。エンコーダとデコーダの両方にRNN層が構築されており、エンコーダの出力がデコーダの入力となって系列を生成する。デコーダはこの固定長ベクトルを取得し、翻訳や時系列データの生成などのタスクを実行するために単語のシーケンスを出力する。

Attention
Attentionメカニズムは、2014年に「Neural Machine Translation by Jointly Learning to Align and Translate」という論文で初めて提案された。このメカニズムは、入力データの重要な部分に自動的に(ソフトに)検索し、それに基づいてターゲット単語を予測することで、エンコーダーとデコーダーの基本的なアーキテクチャを拡張することを目的としている。これにより、長い文でも情報を固定長のベクトルに圧縮する必要がなくなり、モデルが文の長さにより適応できるようになった。また、このアプローチは、単一のモデルで既存の最先端のフレーズベースのシステムと同等、またはそれに近い翻訳パフォーマンスを実現し、提案されたモデルがソース文と対応するターゲット文の間で言語学的に妥当な(ソフトな)アラインメントを見つけることを定性的分析で明らかにした。また、Attentionメカニズムは、RNNのような従来の時系列データ処理モデルの問題点を克服するために開発され、特に機械翻訳のようなシーケンス間タスクに適用された​。

トランスフォーマー(Transformer)
2017年にGoogleの研究者たちによって提案された深層学習モデルであり、「Attention Is All You Need」という論文で初めて登場した。このモデルは、RNNの欠点である並列計算の不得手さと、データが長くなるほど先頭の情報が薄れる問題を解決するために設計された。トランスフォーマーはRNNのエンコーダ・デコーダモデルとは異なり、自己注意(Self-Attention)メカニズムを用いて、データ間の関係を直接モデリングする。これにより、全ての入力データを同時に処理することができ、結果として高速な並列計算が可能になった。また、自己注意メカニズムにより、入力データの長さに関わらず、遠く離れた単語間の関係を捉えることができるようになった。トランスフォーマーは、RNNだけでなく畳み込みニューラルネットワーク(CNN)に代わるものとしても注目され、機械翻訳タスクで高いBLEUスコアを達成し、その後の自然言語処理(NLP)の分野での研究に大きな影響を与えている。

Source-Target Attention
Source-Target Attentionは、Self-Attentionと同じくQuery-Key-Value構造を持ち、seq2seqモデルにおいてエンコーダとデコーダ間の関係を学習するために用いられる。Self-Attentionが同じデータ内部の要素間の関係を学習するのに対し、Source-Target Attentionは異なるデータセット間の要素の関係を学習する。例えば、Transformerモデルのデコーダでは、Queryはデコーダ自身から、KeyとValueはエンコーダから取得する。この方式によって、あるデータセットから別のデータセットへの変換が可能になり、より複雑な出力を生成することができる。

Encoder-Decoder Attention
Encoder-Decoder Attentionは、ソース系列を固定長のベクトルに変換するためのEncoderと呼ばれる構造を持ち、Decoderと呼ばれる別の構造を用いてターゲット系列を生成する。このプロセスにおいて、RNN(LSTMやGRU)だけではなく、Attentionメカニズムが重要な役割を果たす。特にTransformerモデルでは、RNNを使用せずにAttentionが全体の中核を担い、性能の向上、学習速度の加速、構造の単純化といった利点がある。

Self-Attention
Self-Attentionは、データの流れ方自体を学習して決定するモデルであり、単一のシーケンス内の異なる位置を関連付けて同一シーケンスの表現を計算する。これにより、入力文内の全ての単語間の関係を1ステップで直接計算することが可能となる。位置エンコーディングとは、単語の出現位置に関する固有の情報を入力に付加することであり、ネットワークはこの情報を使って単語の位置情報や単語間の位置関係を間接的に考慮する。また、Self-AttentionはQ、K、Vという形で入力からの変換を使用し、自身の単語と他の単語との関係性を計算することで文脈を考慮した適切な表現を更新する。トランスフォーマーモデルでは、エンコーダとデコーダの両方でSelf-Attentionが用いられているが、エンコーダは入力文の全単語を見ながら計算を行う一方で、デコーダは先頭から順に出力を生成し、未来の情報は使用しないという違いがある。さらに、デコーダはSource-Target Attentionを通じて入力文の情報を利用するが、これはエンコーダのSelf-Attentionとは異なるメカニズムである。

位置エンコーディング
入力データの順序情報をモデルに与えるテクニックで、各シーケンスの位置に一意の表現を割り当てる​​。自己注意メカニズム(Self-Attention)ではトークンの位置情報がないため、ポジショナルエンコーディングによって位置情報をベクトルに加え、トランスフォーマーがシーケンス内での各入力トークンの相対的または絶対的な位置を識別できるようにする​。このエンコーディングは、単一の数値(例えばインデックス値)ではなく、異なる周波数の正弦波と余弦波の関数を使用して各位置に割り当てられる。これは、長いシーケンスではインデックスの値が大きくなり過ぎるためである。

自然言語処理におけるPre-trained Models
自然言語処理分野においても事前学習+転移学習という枠組みで様々な応用タスクを高精度に解くことができるモデルが2018年に提案されており、その代表例としてGPTとBERTがある。これらは事前学習という手法を使って、応用タスクを解く特徴がある。一方、word2vecやELMoも事前学習により大規模なデータを使って学習しており、これらも事前学習モデルに含まれる。ただし、word2vecやELMoは単体では応用タスクを解くことが難しく、しばしば別のニューラルネットワークが必要となる。GPTやBERTは、事前学習したモデルをそのまま転移学習に応用できる点で他のモデルと異なる。

GPT(Generative Pre-Training)
GPT(Generative Pre-Training)はOpenAIによって2018年に提案された事前学習モデルで、大規模なコーパスを用いた言語モデルの学習を行い、トランスフォーマーのアーキテクチャに基づいている。このモデルは117万のパラメータを含み、大規模なBooksCorpusデータセットで訓練された。事前学習と転移学習を活用し、多くの自然言語処理(NLP)タスクで高性能を実現している​。言語モデルとして、将来の単語の情報を利用することはないため、デコーダの構造のみを使用し、エンコーダは含まれず、Source-Target Attentionはない。

GPT-2
OpenAIによって開発され、2019年2月に部分的にリリースされた後、同年11月5日に全パラメータモデルが完全に公開された。約15億のパラメータを有し、GPT-1の後継として、パラメータ数とトレーニングデータセットのサイズがそれぞれ約10倍に増加した。このモデルは、BookCorpusと800万ページにわたるWebページデータセットを使って事前にトレーニングされており、連続した複数のパラグラフで構成された一貫性のあるテキストを生成する能力を備えている。さらに、テキストの翻訳、質問への回答、要約などのタスクを行うことが可能で、時には人間と見分けがつかないようなテキストを生成することもあるほどの性能であった。

GPT-3
GPT-3は2020年6月11日にリリースされ、GPT-2の後続として開発された。1750億のパラメータを有し、これはGPT-2の15億パラメータと比べて大幅に増加している。トレーニングには約45TBのテキストデータが使用され、これには3000億のトークンが含まれる。これはGPT-2の使用した40GBのデータセットと比較しておよそ1100倍に増えている。事前学習では与えられたプロンプトからタスクを理解し、適切な出力を生成する「コンテキスト内学習」によって学んでいる。GPT-3は、多くのタスクでファインチューニングが不要であり、zero-shotやfew-shot learningでも高い性能を見せている。これはメタ学習と解釈することもできる。

Instruct-GPT
Instruct-GPT は OpenAI の GPT-3 の改良版であり、ユーザーの指示によりよく従い、応答内に人間の意図を反映するように設計されている。技術的基盤には、ヒューマン フィードバックからの強化学習 (RLHF) と「ヒューマン イン ザ ループ」(HITL) の概念が含まれている。RLHF は、人間のレビュー担当者からのフィードバックに基づいてモデルが微調整される機械学習アプローチであり、AI がより人間らしい応答を生成できるようにする。

GPT-4
2023年3月14日にリリースされた。自然言語処理や人間のようなテキスト生成、データ分析などにおいて、GPT-3.5よりも高い性能を備えている。特に、GPT-4は画像とテキストの両方の入力を受け付け、テキスト出力を生成する多モーダル機能を持っており、様々な専門的及び学術的ベンチマークで人間レベルのパフォーマンスを示しているが、多くの現実世界のシナリオでは人間よりも能力が低いことが認められている。また、GPT-4は8,192トークンと32,768トークンのコンテキストウィンドウを持つ2つのバージョンがあり、これはGPT-3.5やGPT-3の4,096トークン、2,049トークンの制限を大幅に上回る。法律の模擬試験では上位10%の得点を獲得し、GPT-3.5の下位10%と比較して顕著な進歩を遂げている。

BERT(Bidirectional Encoder Representations from Transformers)
Googleによって開発されたモデルで、双方向Transformerを利用しており、様々な自然言語処理タスクで高い性能を発揮する。2019年10月25日には、英語のGoogle検索に導入され、12月9日には日本語を含む70以上の言語で利用が開始された​。大量のラベルなしデータでの事前学習と少量のラベル付きデータでのファインチューニングにより、文脈を理解しより精度の高い情報処理を可能にする。事前学習では、Masked Language Model(MLM)とNext Sentence Prediction(NSP)という2つのタスクを使用する。MLMでは文中のランダムな単語をマスキングし、その単語を予測することで文脈理解能力を養う。NSPは二つの文が連続しているかを予測するタスクだが、後の研究でNSPの有効性に疑問が投げかけられ、RoBERTaなどの派生モデルではNSPタスクを削除し、動的マスキングを採用している​。BERTの派生モデルにはERNIE、XLNet、RoBERTa、ALBERTなどがあり、それぞれがBERTの基本的なアプローチを拡張または改良して特定のタスクでの性能を向上させている。

MLM(Masked Language Model)〈実装〉
文書中の単語の一部をランダムに隠し(通常は15%のトークンがマスクされる)、その隠された単語が何であるかを予測するタスク。このタスクでは、モデルは文中の他の単語に基づいてマスクされた単語を予測することが期待される。例えば、「私の好きなスポーツは[MASK]で、いつか本場のアメリカで観戦してみたい」という文に対して、BERTなどのMLMは文脈から「野球」がマスクされた単語であると予測することが目的。このプロセスを通じて、モデルは単語の文脈情報を学習し、言語理解能力を向上させることができる​。MLMは、文脈の手がかりを利用して空白を埋めるタスクであり、モデルは最も適切な単語を生成するように設計されている。

NSP(Next Sentence Prediction)
BERTモデルのトレーニングプロセスの一部であり、2つの文を入力として受け取り、これらの文が論理的に連続するかどうかを予測するタスク。BERTは入力された2文が意味的につながりがあるかどうか、またはつながりがないかを判断する。このプロセスでは、「文A」と「文B」をBERTに提供し、BERTに「文Bは文Aに続くか?」と問いかけることで、両文が真のペアであるか偽のペアであるかを判定する。

GLUE(General Language Understanding Evaluation)🔗
自然言語のベンチマークであり、自然言語処理モデルの言語理解能力の精度を評価するためのもの。これには文法や含意関係などの正確な推定が可能かを測定するテストが含まれている。GLUEは英語圏の自然言語処理のデファクトスタンダードとされており、新しい自然言語処理の手法を発表する際にはGLUEスコアを併せて発表することが一般的。さらに、GLUEには「同義言い換え」「質疑応答」といった言語に関するテストデータが含まれ、これらを用いて総合的な言語能力のスコアが算出される。また、2020年2月からはGLUEよりも難易度の高い「SuperGLUE」も提供されている。

自然言語推論
(Natural Language Inference:NLI)
与えられた2つの文書の内容に矛盾があるか、一方が他方を含意するかなどを判定するタスク。含意関係認識(Recognizing Textual Entailment、RTE)ともいう。
質問応答
(question answering)
文書とこれに関する質問が与えられ、適切な回答を選ぶタスク。しばしば常識推論(commonsensereasoning)が必要となる。〈実装〉
意味的類似度
(semantic similarity)
判定と2つの文が与えられ、これが同じ意味であるか否かを判定するタスク。
文書分類
(document classification)
与えられた文書がどのクラスに属するかを予測するタスク。評価分析も文書分類の一種である。〈実装〉

JGLUE
日本語の自然言語理解(NLU)能力を測定するために作られたベンチマーク。日本語で書かれたテキストがどの程度正確に理解できるか、または特定の言語理解モデルがどの程度の性能を持っているかを評価するために使用される。商品レビューを基にポジティブかネガティブかを推定する文章分類タスク、2つの文が与えられ、その間の類似度や推論関係を推定する文ペア分類タスク、常識推論能力を評価する選択式問題の質問応答タスクなどがある。

事前学習モデルの最近の発展
GPTやBERTが登場してからまだ数年だが、次々と高精度なモデルが登場している。パラメータ数は年々増加しており、GPT-3のパラメータ数は約1750億にもなる。GPTやBERTが登場してからまだ数年だが、次々と高精度なモデルが登場している。パラメータ数は年々増加しており、GPT 3のパラメータ数は約1750億にもなる。GPT 3の登場以降、事前学習モデルの発展は著しく、パラメータ数の増加は驚異的な速度で進んでいる。GPT 4のパラメータ数が5,000億以上、あるいは100兆とも記されており、正確な値は非公開ながらも、この数字からGPT 3を大きく上回るスケールであることが伺える。モデルの性能がその規模、つまりモデルのパラメータ数、訓練データセットの規模、および計算量という三つの要素に依存するという法則はスケーリング則、(Scaling Laws)と呼ばれ、大規模言語モデルの研究において重要な概念となっている。パラメータ数が増加すると、モデルが学習できる情報の量も増え、より複雑なパターンを捉えることが可能になる。しかし、この増加は計算コストの増大を伴うため、効率的な学習方法やアーキテクチャの最適化が益々重要になる。

引用:https://arx引用:https://arxiv.org/pdf/2303.18223v10.pdfiv.org/pdf/2303.18223v10.pdf

Vision Transformer〈実装はこちら〉
Vision Transformer(ViT)は、2020年にGoogleから発表された画像認識用のTransformerであり、自然言語処理で使われるTransformerを画像に応用したもの。NLPではTransformerが文章の単語間の意味関係を学習するのと同様に、ViTは画像のパッチ間の関係を学習する。画像はパッチに分割され、それぞれがベクトル化されてエンコーダに入力され、アテンションメカニズムを通じて表現が改善される。ViTは画像認識、画像セグメンテーション、自動運転などの分野で応用されている。

LDA(Latent Dirichlet Allocation)
文書中の単語からトピックを推定する教師なし機械学習の手法で、ディリクレ分布という確率分布を用いて、文書が異なるトピックから生成されるという仮定のもとで、各単語がどのトピックに属するかを推定する。LDAは、文書が複数のトピックの混合で構成されていると仮定し、文書内の各単語を「スポーツに関連する単語」「経済に関連する単語」などとトピックに割り振ることで、仮定のトピック割合を更新し、文書の主要トピックを決定する。

トピックモデル
文書だけでなく画像や音楽などのデータを複数のトピックに分類するモデルであり、各データが複数のトピックに属することを可能にしている。これはk-means法やウォード法など他のクラスタリング手法とは異なり、これらの手法は各データを1つのクラスに割り当てることを前提としているのに対し、トピックモデルはデータ1つが複数のトピックを持つことを許容する。

LSI(Latent Semantic Indexing)
特異値分解(SVD)に基づく情報処理、カタログ作成、インデックス作成、および処理された内容に関連するコンテンツの検索を可能にする。この技術は、文書間で共通して現れる単語を分析し、低次元の潜在的意味空間を構築する次元圧縮手法としても使用される​。LSIは任意の行列を2つの直行行列と対角行列に分解することで、文書や単語間のパターンを識別する手法であり、これによって文書ベクトルの次元削減と潜在的な意味の抽出が行われる。

6.5 深層強化学習分野

キーワード
深層強化学習の基本的な手法と発展、深層強化学習とゲーム AI、実システム制御への応用、DQN、ダブル DQN、デュエリングネットワーク、ノイジーネットワーク、Rainbow、モンテカルロ木探索、アルファ碁 (AlphaGo)、アルファ碁ゼロ(AlphaGo Zero)、アルファゼロ (Alpha Zero)、マルチエージェント強化学習、OpenAI Five、アルファスター (AlphaStar)、状態表現学習、連続値制御、報酬成形、オフライン強化学習、sim2real、ドメインランダマイゼーション、残差強化学習

深層強化学習の基本的な手法と発展
深層強化学習はエージェントが環境との相互作用を通じて報酬最大化に向けた行動を学習する技術だ。深層学習はニューラルネットワークを使用し複雑なパターンを学習し予測や分類を行う能力を有する。これらを融合した深層強化学習によりエージェントはより複雑な問題解決が可能になる。最近では「アンサンブル深層強化学習」というさらなる進化形が開発された。これは複数の深層強化学習エージェントを組み合わせることで、それぞれの長所を生かしつつ短所を補う手法で、ロボティクスや自動運転、財務、株式市場など様々な分野で応用されている。ただし計算リソースの大きな消費が課題となっており、今後はより効率的な学習アルゴリズムやリソース管理手法の開発が期待されている。

Q学習 (Q値=価値関数)
TD学習の一つであり、方策オフ型の強化学習手法として位置づけられる。1989年、クリス・ワトキンズの論文により、この手法が体系化された。この学習法では、エージェントが特定の状態とその状態での可能な行動を基にして、行動の有効性を示すQ値を更新する。理論上、無限に試行を重ねることで、ランダムな行動選択であってもQ値の収束が保証される。学習率αが特定の条件を満たせば、全てのQ値は最適な値へと収束する。しかし、Q学習には理論的な収束性が保証されているものの、収束途中の値の合理性には疑問があり、またパラメータ調整が複雑である点が問題とされている。

ε-greedy方策
Q学習で用いられるアプローチで、探索と活用のバランスを取りながら累積報酬の最大化を目指す。探索では行動をランダムに選択し、活用では報酬平均が最高な行動を選択する。ε(イプシロン)はハイパーパラメータで、小さい値だと既知の情報を活用する確率が高く、大きい値だとランダムな探索が頻繁に行われる。この戦略の目的は最適な行動を確実に発見することであり、探索と活用のバランスが重要となる。

SARSA
TD学習の一種で、エージェントが実際に取った行動に基づきQ値を更新する方法だ。更新式は現在の状態と行動のQ値、報酬、次の状態と次の行動のQ値を用いて表される。特筆すべきは、次の行動がエプシロン・グリーディ法(ϵ-greedy法)によって選ばれる点で、これによりエージェントは最適な行動を学習しつつ新しい行動も試すことが可能になる。一方で、Q学習では次の状態のQ値の中から最大値を選び価値を更新する。この方法ではエージェントは最も価値の高い行動を選択することを目指す。SARSAとQ学習の違いは、SARSAが実際に行動した結果を用いて期待値の見積もりを行うのに対し、Q学習では報酬の期待値を現在推定されている値の最大値で置き換える点にある。

深層強化学習
深層強化学習はニューラルネットワークを使用して状態や行動の複雑な組み合わせを学習する手法である。DQN(Deep Q-Networks)などのアルゴリズムがAtari 2600のゲームで人間を超えるパフォーマンスを達成したことで知られる。最近の進展では、DRLアルゴリズムの自動化と一般化が進展している。AutoML技術を用いたアプローチで、損失関数を計算グラフとして表現し、それを最適化することで新しいRLアルゴリズムを学習する。この方法で開発されたDQNRegやDQNClippedは、Q値の過大評価を防ぐ正則化手法として解釈可能であり、異なる環境での一般化性能も高い。

DQN(Deep Q-Network)
DeepMind社が開発した深層強化学習アルゴリズムだ。この手法は従来のQ学習を基盤に、ニューラルネットワークを使って最適行動価値関数を近似し、Q値を推定する。具体的には、ある状態を入力し、ニューラルネットワークを通じて行動ごとのQ値を計算する。これにより、ディープラーニングと組み合わせた強化学習、すなわち深層強化学習が実現される。DQNの学習プロセスでは、特徴的な手法が用いられる。これには、Q-networkに状態を入力し、行動ごとのQ値を求めるステップ、ε-greedy法に基づいた行動選択、誤差関数を用いたQ-networkの重みの更新、そしてTarget-Networkと呼ばれる別のニューラルネットワークを用いた経験再生(Experience Replay)を通じた学習が含まれる。このプロセスを通じて、Q-networkとTarget-Networkの重みが同期し、効率的な学習が進められる。このアルゴリズムは、Atari 2600の多様なゲームで人間並み、またはそれ以上のスコアを達成し、深層強化学習の可能性を広く知らしめた。また、Q学習が連続的な状態を扱う際に直面する計算上の困難を、ニューラルネットワークを利用して解決し、より複雑な問題に対応可能になった。

経験再生(expreience replay)
DQN(Deep Q-Network)の学習精度を高める手法の一つで、環境探索過程で得た経験(データ)をリプレイバッファ(Replay Buffer)に一時的に保存する。その後、一定の間隔でこれらの保存データをランダムに複数選出し(これをバッチサイズという)、DNNの学習に用いる。この方法は学習データの時間的偏りを減少させ、学習の安定性を向上させる目的がある。また、優先順位付き経験再生(Prioritized Experience Replay)というバリエーションも存在し、ここではTD誤差の大きさに基づいてデータに優先順位を設け、DQNのネットワーク誤差を小さくする学習を行う。

ターゲットネットワーク
DQNでは、同じ構造を持つ二つのニューラルネットワーク、メインネットワークとターゲットネットワークを用いる。これらのネットワークは、状態を入力として受け取り、Q値(行動価値)を出力する。重みはそれぞれθ,θ−と表され、初期値ではθ−=θとなる。学習過程では、メインネットワークを用いて現在の状態から行動価値を計算し、ターゲットネットワークを用いて次の状態の行動価値を推定する。得られた報酬とターゲットネットワークの出力を組み合わせて目標値を計算し、この目標値を使用してメインネットワークを学習させる。このプロセスでは、ターゲットネットワークは学習されない。さらに、一定のステップごとにメインネットワークの重みをターゲットネットワークに同期させる。この同期の間隔は問題に応じて適切に設定される。

ダブル DQN
DDQN(ダブルDQN)(Double Deep Q-Network)は、DQNの問題を改善するために開発された手法。DQNでは、行動価値(Q値)の過大評価が問題となっていた。DDQNではこの問題に対応するため、2つのニューラルネットワーク(Q NetworkとTarget Network)を用い、それぞれ異なる役割を持たせる。Q Networkは行動価値を最大化する行動を選択し、Target Networkはその行動の価値を評価する。これにより、DQNでの行動価値の過大評価を軽減し、より正確な推定が可能になる。

デュエリングネットワーク
デュエリングネットワークは強化学習の手法の一つで、Deep Q-Network (DQN) の拡張として開発された。伝統的なQ-learningが状態と行動のペアに対してQ値を推定するのに対し、デュエリングネットワークはこのQ値の推定をValue Function(V)とAdvantage Function(A)の2つの部分に分けて考える。Value Functionは特定の状態の価値を評価し、Advantage Functionは特定の状態での各行動が平均よりどれだけ優れているかを評価する。このアーキテクチャにより、デュエリングネットワークは伝統的なDQNよりも効率的に学習を進め、多数の行動選択肢が存在する複雑な環境でも高い性能を発揮する。デュエリングネットワークの最大の特徴は、Value FunctionとAdvantage Functionの明確な分離である。これにより、環境の状態に対する価値と取るべき行動の相対的な価値を個別に学習する。この二分法により、デュエリングネットワークは状態や行動の価値を迅速かつ正確に推定し、学習を加速させ、適応的な行動ポリシーをより早く獲得することができる。

ノイジーネットワーク
ノイジーネットワークは強化学習においてエージェントの行動選択に革新をもたらし、ネットワークの重みにパラメトリックノイズを加えることで効果的な探索を実現する。従来のDQN(Deep Q-Network)ではε-greedy法を用いて、一定確率で価値に関係なくランダムな行動を選択し探索の可能性を広げていた。しかし、常にその時点で価値の高い行動を取り続けると、最初に価値が高くなった行動が繰り返し選ばれ、他の行動を取る機会が失われる問題があった。ノイジーネットワークではこの問題を解決するために、ネットワークの重み自体にノイズを加えるアプローチを採用する。これにより、エージェントのポリシーに確率的な要素を導入し、より効率的な探索を可能にする。ノイズのパラメータは勾配降下法によって他のネットワークの重みとともに学習される。この方法により、学習可能なパラメータを用いて、エージェントが必要に応じてノイズの大きさを調整することが可能になる。

Rainbow
DQN(Deep Q-Network)とその派生手法の改良点を組み合わせた強化学習アルゴリズムである。具体的にはDQN、DDQN(ダブルDQN)、Dueling Networks(デュエリングネットワーク)、Multi-step Learning(マルチステップラーニング)、Noisy Networks(ノイジーネットワーク)、Categorical DQN(カテゴリカルDQN)、Prioritized Experience Replay(優先度付き経験再生)の7つの要素を含んでいる。これらを組み合わせることで、Rainbowは強化学習において高いパフォーマンスを実現している。

PER
優先度付き経験再生(PER: Prioritized Experience Replay)はオリジナルのDQNが採用しているReplay Bufferからのランダム選択によるミニバッチ作成方法を改善するアプローチ。通常のDQNではReplay Bufferに蓄積された遷移情報からランダムに選択しミニバッチを作成するが、この方法では貴重なイベントの学習効率が低下するリスクがある。PERでは意外性が高いと見なされる遷移(TD誤差δが大きい遷移情報)を優先してReplay Bufferからサンプリングし、これによりTD誤差δの絶対値の大きさに基づいてサンプリングされる確率に重み付け。ただし、PER使用時には注意が必要。優先度に応じたサンプリングは同じ遷移情報の過剰学習リスクがあり、学習の安定性を損なう可能性があるため、Q関数更新時には遷移から計算されるTD誤差に対してサンプリング確率に応じた補正が行われる。補正の強さはハイパーパラメータβによって決定され、βが0の場合は補正なし、βが1の場合は完全補正。通常、βは学習進行とともに線形に増加させることが推奨される。

カテゴリカルDQN
カテゴリカルDQNは、従来の深層強化学習(Q学習)が状態行動価値Q(s, a)の期待値を関数近似するのと対照的に、状態行動価値の確率分布を関数近似し、そこから期待値を算出する手法。これにより、Q関数が環境をより適切に表現し、学習の安定化に寄与する。分布版ベルマン方程式では、期待リターンの確率分布Z(s, a)を用いて行動価値関数を更新する。遷移先状態s’での行動a’の選択は、Z(s’, a’)の期待値を最大化する行動に基づいて行われる。C51(Categorical DQNの一形態)では、カテゴリ分布で価値分布を表現し、2つの分布間の距離をcategorical cross entropyで測定し、この距離を最小化するようにネットワークを更新する。ネットワーク構造は基本的にDQNと同様で、最終Dense層が”action space×カテゴリ分布のビン数”のunitsを出力し、確率分布を表現する。Categorical DQNの実装では、理論的にはWasserstein距離に基づく分布間距離尺度が証明されているものの、実際にはカテゴリ分布のKL距離を用いる。これは、経験分布のWasserstein距離が偏りを持つため。

モンテカルロ木探索
深層強化学習におけるモンテカルロ木探索(Monte Carlo Tree Search, MCTS)は複雑な意思決定問題に最適な行動を見つけるアルゴリズムで、特にゲームやシミュレーションに広く使われる。木探索アルゴリズムの一種で、AlphaGoやAlphaZeroなどの有名なアルゴリズムの発展形と位置付けられている。このアルゴリズムは、潜在的な動きの巨大な木を探索し、将棋や囲碁などのゲームに特に効果的。各ノードで可能な動きをランダムにシミュレートし、将来の結果を評価するが、一手先しか読まない問題がある。このため、一定回数実行されたアクションの子ノードを展開して先読みを実現。深層強化学習では、MCTSはニューラルネットワークと組み合わせられ、ゲーム状態から価値や有望な動きを予測するが、学習フェーズがなく、シミュレーションで履歴を蓄積し、本番では履歴を基にアクションを選択する。

深層強化学習とゲームAI
ゲームの分野では、深層強化学習によりAIがゲームの状態を評価し、報酬を最大化する方法を学んで次の最善の動きを決定する。例えば、Google DeepMindのAlphaGoは囲碁の世界チャンピオンに勝利し、深層強化学習を使用して無数の囲碁のゲームから学んだ高度な戦略と創造的なプレイを披露した。

ゲーム理論

ゼロ和性 ゼロ和性(ゼロ和ゲーム、または零和ゲーム)は、ゲーム理論におけるゲームの分類の一つで、この種のゲームではプレイヤー間の利害が完全に対立し、一方のプレイヤーが利得を得ると、それと同量の損害が他方のプレイヤーに降りかかる特徴がある。つまり、あるプレイヤーが得た利益は、別のプレイヤーの損失となり、その損得の合計(和)は常にゼロになる。このゲームの代表的な例としては、チェスやポーカーなどが挙げられる。これらのゲームは二人のプレイヤーによって行われ、片方が勝つともう片方が負けるという仕組みになっている。例えば、チェスでは一方のプレイヤーが勝利すれば、もう一方は敗北する。これにより、ゲームの結果におけるプレイヤー間の合計得点はゼロになる。
2人完全情報確定ゼロ和ゲーム 偶然の要素がなく、理論上は完全な先読みが可能な性質を持つ。このゲームでは、双方のプレーヤーが最善手を打つことで、先手必勝、後手必勝、または引き分けのいずれかが決定する。しかし、将棋やチェスなどのように選択肢が多いゲームでは、完全な先読みを人間が行うことは事実上不可能となる。実際、将棋における実現可能な盤面の数は4.65×10^62以上と考えられており、これらすべての盤面を覚えて最善手を指し続けることは、人間にとって非現実的だ。さらに、将棋やチェスのようなゲームでは、千日手などのルールによる結果の決定があり、結果が曖昧になる場合もある。特にミニマックス法を改良したα-β法を基本とするアルゴリズムは、二人完全情報確定ゼロ和ゲームの研究において主流となっている。AIの能力により、これまで人間には不可能であった複雑なゲームの局面分析や戦略の最適化が可能になっている。
ナッシュ均衡ナッシュ均衡は非協力ゲームで全員が最適戦略を取る状態を指し、自分だけの戦略変更では利益が得られない。例えば価格競争で低価格戦略を取ると利益がマイナスになる状況では、現状維持が最適戦略となる。ナッシュ均衡には、「囚人のジレンマ」や「チキンゲーム」「調整ゲーム」などの例がある。ナッシュ均衡が一つとは限らず、場合によっては複数存在することがある。しかし、ナッシュ均衡が必ずしも全体の利益を最大化するわけではない点に注意が必要となる。

AlphaGo Fan
AlphaGo Fanは、AlphaGoの初代バージョンであり、2015年10月にプロ棋士樊麾(Fan Hui)に対して囲碁の試合で5戦全勝することにより、コンピュータ囲碁としては初めてプロ棋士に勝利を収めた。このバージョンは176台のGPUを使用し、フルサイズの19×19ボード上でハンディキャップなしの対戦で勝利した最初の囲碁AIプログラムとなった。

AlphaGo
AlphaGoはGoogle DeepMindが開発した囲碁プログラムで、2015年10月にプロ囲碁棋士を互先で破った初のコンピュータ囲碁プログラムになった。2016年3月、イ・セドル九段との五番勝負で4勝1敗の成績を挙げ、韓国棋院から名誉九段の称号を授かった。2017年5月には、柯潔との三番勝負でも全勝し、中国囲棋協会からも名誉九段を授与された。

AlphaGo Zero
AlphaGo ZeroはDeepMindが開発した囲碁プログラムAlphaGoのバージョンで、2017年10月に「Nature」誌で発表された。このAIは人間の対局データを使用せず、自己対戦のみで深層強化学習を行い、既存のAlphaGoバージョンを上回った。ルール以外の囲碁知識を持たず、64個のGPUと19個のCPUサーバーで訓練され、推論には4個のTPUを使用した。3日でAlphaGo Lee、21日でAlphaGo Masterを上回り、40日で全バージョンを超越。人間の棋譜を使用した訓練も試されたが、長期的には劣ると判明。AlphaZeroへの応用で囲碁以外のチェスや将棋のプログラムにも勝利した。

Alpha Zero
AlphaZeroはDeepMindによって開発された汎用ゲームAIで、2017年12月5日に発表された。このAIはAlphaGo Zeroのアプローチを基にしており、囲碁だけでなく将棋やチェスにも対応している。AlphaZeroは自己対戦とディープラーニングを基にした強化学習により、これらのゲームを独学した。オープニングブックやエンドゲームの表を使わずに、チェスの世界トップレベルのAIであるStockfishや将棋のプログラムelmo、さらには囲碁のAlphaGo Zeroを破るレベルに到達した。AlphaZeroはモンテカルロ木探索を用いて自己対戦を行い、アルファ・ベータ探索とは異なる方法で強化学習を実施した。囲碁では8時間の自己学習後にAlphaGo Zeroと対戦し、60勝40敗の成績を収めた。将棋では100局の対局で90勝8敗2分の成績を、チェスではStockfishとの対局で一手につき1分の思考時間で25勝3敗72分の成績を達成した。

Agent57
Agent57はDeepMindによって開発された深層強化学習エージェントで、57のAtari 2600ゲームすべてにおいて人間のベースラインを上回るスコアを達成した初のシステム。このシステムは、効率的な探索のためのアルゴリズムと、探索行動と短期・長期行動を調節するメタコントローラーを組み合わせている。Agent57はDQN(Deep Q-Networks)を基に発展し、内発的報酬や記憶能力の概念を取り入れ、Atari 2600のゲームに含まれる多様なタスクとゲーム性を理解し、それぞれのゲームで人間の平均スコアを超えることができた。

マルチエージェント強化学習(Multi-Agent Reinforcement Learning : MARL
マルチエージェント強化学習は、複数のエージェントが協力や競争などの相互作用を通じて学習する強化学習の一形態だ。従来の強化学習は単一エージェントが報酬を最大化する最適な方策を見つけることが基本だったが、MARLでは複数のエージェントがそれぞれの報酬を追求しつつ、協力、競争、またはその両方の複合関係を通じて相互に影響を与え合いながら学習する。

OpenAI Five
人工知能を研究する非営利団体OpenAIが開発した、多人数対戦型ゲームDota 2でプレイする5つのエージェントからなるチームで、ディープニューラルネットワークとLSTM(Long Short-Term Memory)を組み合わせたものだ。このチームはPPO(Proximal Policy Optimization)という強化学習アルゴリズムを用いて学習した。2018年6月25日にはDota 2でアマチュアの人間チームに勝利し始め、The International 2018では世界トップレベルのDota 2プレイヤーとの試合で敗北したが、試合の初期段階では勝利の可能性を示した。2019年4月13日、OpenAI Fiveはesportsの世界大会で世界王者チームを破った最初のAIシステムとなった。この成果は、OpenAI FiveがDota 2の2018年度世界大会覇者であるチームOGを2試合連続で破ったことを意味する。これはチェスや将棋のようなターンベースのゲームだけでなく、リアルタイムで多くの意思決定が求められるゲームにおいても、AIの進歩を示している。OpenAI Fiveの取り組みは、複数のCPUとGPUを使用して約10ヶ月間の強化学習によって成し遂げられた。

AlphaStar
2019年、DeepMind社は「AlphaStar」と呼ばれる人工知能プログラムを開発し、RTS(Real-Time Strategy)ジャンルの対戦型ゲーム「スタークラフト2」でグランドマスター称号を獲得した。AlphaStarは、画像処理や自然言語処理に用いられる技術を取り入れたネットワークを使用し、人間のプレイを模倣することから学習を開始した。強化学習では、自己対戦やゲーム理論を活用し、新しい戦略を発見した。当初はAPIを用いた高精度の操作や全視野のアドバンテージを持っていたが、批判を受けてより現実的な制約を加えたバージョンが開発された。この改良版は公のマルチプレイヤーラダーで匿名で対戦し、グランドマスターレベルに到達した。DeepMindは、AlphaStarが提供する洞察がロボットや自動運転車、仮想アシスタントの分野での発展に寄与するとしている。

状態表現学習(state representation learning)
エージェントがセンサデータから状態に関する特徴表現を学習する手法で、強化学習の一部として機能する。環境に対する状態の特徴表現を事前に学習することにより、学習効率が向上する。このアプローチは転移学習に適しており、次元削減が可能なため、高次元環境にも適用でき、次元の呪いを軽減するのに役立つ。状態表現学習では、学習された特徴は低次元であり、時間を通じて進化し、エージェントの行動に影響される。これにより、エージェントは行動によって生じる環境の変化を捉え、その表現を学ぶことができる。この手法は、複雑なデータから抽象的な特徴を学ぶことを目指し、エージェントが環境の変化に対応する方法をより効果的に学ぶのに役立つ。

連続値制御(continuous control)
連続的な行動空間を持つ問題に対して使用される。Deep Q-Network(DQN)は離散値の行動空間に適した手法であるが、連続値を扱う問題にはNormalized Advantage Function(NAF)のような異なるアプローチが用いられる。NAFはDQNに基づいており、Experience ReplayやTarget Networkなどを同様に用いる。この手法は、DQNの拡張形であり、DDPGと比較して収束が早いとされている。NAFのネットワーク構造は、Middlewareの後に3つの層に分岐し、それぞれが異なる機能を持つ。第一層は最適な行動を出力し(活性化関数はTanH)、第二層はベルマン誤差を出力し(活性化関数はlinear)、第三層は行動価値を出力する(活性化関数は一般にlinear)。これらの層の出力を組み合わせて、最終的に行動のQ値が計算される。

報酬成形
強化学習における報酬成形は、エージェントがデータから学習し最適な行動を習得するために報酬信号を調整する手法。強化学習はエージェントは点数を最大化することを目的とし様々な行動を試して最適な行動を探索する。このプロセスは静的な問題と解答の関係ではなく、環境が変化することを想定している。報酬成形では、エージェントに小さな報酬やペナルティを適用し、望ましい行動を学習しやすくする。主な課題は適切な追加報酬を決定することで、元の学習目標を妨げないよう慎重な設計が必要となる。

オフライン強化学習
オフライン強化学習では、エージェントは以前に収集されたデータセットを使用して学習する。このデータセットは、過去のエージェントの経験やシミュレーションから得られたものであるため、エージェントが環境と直接相互作用せずに学習することが特徴である。この方法の利点として、リアルタイムの環境相互作用が不要で、リスクを抑えることが可能である。特に医療や金融などの高リスク環境で有用である。収集されたデータを使用するため、学習プロセスは比較的高速である。しかし、データセットが不完全または偏っている場合、エージェントが最適な学習結果を得るのは困難である。新しい状況への適応も難しい。2023年7月21日、株式会社博報堂テクノロジーズは、オフライン強化学習のためのオープンソースソフトウェア「SCOPE-RL」を公開した​​​​​​。このソフトウェアは、オフラインで新たな方策を学習し、学習した方策の性能を蓄積ログデータを用いて事前評価する機能を持ち、広告運用アルゴリズムの改善に貢献している。このソフトウェアの開発により、オフライン強化学習の実応用の敷居が大幅に下がり、広告業界をはじめ、医療やロボティクス、自動運転など広範な技術分野への応用が期待されている。

模倣学習(imitation learning)
模倣学習は、人間や専門家のデモンストレーションを通じてロボットやエージェントが行動方策を学習する手法である。このプロセスでは、専門家のデモンストレーションへのアクセスが重要で、代替アプローチに比べてポリシーの合成を大幅に簡素化する。主に三つの手法がある:(1) Behavoir Cloning、専門家の動作を丸ごとコピーするような行動ポリシーの構築、(2) Dataset Aggregation、専門家の行動データと学習したポリシーによるデータを融合する方法、そして、(3) 逆強化学習、所望のタスクの行動データから教師エージェントの「意図」を表現する報酬関数を推定し、それを用いて強化学習を実行することで、教師エージェントを模倣する方策を学習する手法。最近ではディープラーニング技術を応用して、専門家が無意識のうちに仮定する判断基準や行動ルールをモデル化する手法に注目が集まっている。

sim2real
コンピュータシミュレーションで学習したモデルを現実世界に用いる強化学習の手法である。これにより、様々な環境条件を低コストで構築することが可能になる。シミュレータと現実世界の間には、リアリティギャップと呼ばれる差異がしばしば生じ、これがシミュレータで学習したモデルを現実世界に転移する際の性能低下の原因となることがある。特にロボットの知覚や制御において、シミュレーションから現実世界への転移の進展が見られる。また、大規模な自動化においては、長期間にわたる信頼性と一貫性を保つために、コンピュータシミュレーションが不可欠であり、複雑なプロセスを効果的に設計、検証、改善するために使用される。

ドメインランダマイゼーション(domain randomization)
sim2realの問題に対処するために開発された手法。この手法では、シミュレータの様々なパラメータをランダムに設定し、多数の異なる環境で学習を行う。これにより、シミュレータと現実世界の間の違いによるモデルの精度の低下を克服し、シミュレーションで学習したモデルが実世界で効果的に機能することを可能にする。摩擦係数、衝突係数、物体のテクスチャ、光源モデルなど、多様なパラメータがランダムに変更されることで、実世界の様々な条件に適応できるモデルの学習が実現される。

残差強化学習(residual reinforcement learning)
従来のロボット制御で用いられてきたような基本的な制御モジュールの出力と、実際にロボットがタスクを行う環境における最適な方策との差分を強化学習によって学習することを目指す。与えられたタスクに対して不完全な制御方策が得られている場合を想定し、与えられた初期方策を改善していくことで、少ない試行回数で適切な方策を獲得することを実現する。

モデルベース(model-based)強化学習
環境に関する予測モデルを明示的に活用しながら方策の学習を行う強化学習アルゴリズム。

世界モデル(world model)
エージェントが得られる情報を元に自身の周りの世界に関する予測モデルを学習して、方策の学習に活用する枠組み。

6.6 モデルの解釈性とその対応

キーワード
ディープラーニングのモデルの解釈性問題、Grad-CAM、モデルの解釈、CAM

ディープラーニングモデルの解釈性問題
ディープラーニングモデルは複雑さから、内部構造や決定プロセスがブラックボックス化されることが多い。このためモデルの信頼性や安全性に懸念が生じることがある。しかし、解釈性の問題に関しては近年研究が進み、モデルの判断根拠を明らかにする手法がいくつか提案されている。これらの手法により、モデルの説明性と信頼性を向上させ、より信頼性の高いAIシステムの実現に取り組むことが重要だとされている。

Grad-CAM
Attentionは予測精度向上のための手法がそのまま可視化に応用できるというものだが、可視化自体を目的としたGrad-CAMという手法も存在する。これは画像認識系のタスクを対象に、モデルの予測判断根拠を示すために、「画像のどこを見ているか」を可視化する。勾配情報を用いて勾配が大きい箇所が出力値への影響が大きいピクセルが重要だと判断して重み付けをする。この過程でGrad-CAMは画像が低解像度になってしまうという問題がある。

Guided Grad-CAM
畳み込みニューラルネットワーク(CNN)の特定の層での特徴マップの重要性を視覚的に解釈する手法。この手法はGrad-CAM(Gradient-weighted Class Activation Mapping)に基づいており、Grad-CAMが提供するクラス固有の重要度マップとGuided Backpropagationが提供する勾配情報を組み合わせて、より細かい視覚的解釈を実現する。具体的には、特定のクラスの予測に対して、畳み込み層の特定の部分がどのように寄与しているかを勾配情報を通じてより詳細に理解できる。この手法はネットワークの意思決定過程を理解するのに役立ち、医療画像の解析や物体検出などの分野で特に有用。

6.7 モデルの軽量化

キーワード
エッジ AI、モデル圧縮の手法 蒸留、モデル圧縮、量子化、プルーニング

エッジAI🔗
エッジコンピューティングという技術から派生した用語で、利用者の端末やその物理的に近い場所に処理装置を分散配置し、ネットワークの端点でデータ処理を行うことを指す。このエッジコンピューティングの枠組みの中で、AIの学習モデルを使用してエッジデバイスでデータの推論処理を行うことがエッジAIの主な機能である。エッジAIの利点は、クラウドコンピューティングに依存せずに、迅速なデータ処理が可能であること、またデータのプライバシーを保護しやすいことなどが挙げられる。この技術は、スマートフォンや自動運転車、産業用ロボットなど、様々な分野での応用が進んでいる。また、エッジデバイスの計算能力の向上により、より高度なAIモデルを利用可能になり、エッジAIの可能性が拡がっている点も注目されている。

モデル圧縮
AIモデルのサイズを小さくし、学習や予測に要する時間とリソースを減らす技術だ。この圧縮によって、効率的な検証が可能となり、特に計算能力が限られている環境やリアルタイム処理が必要なアプリケーションに適している。主な方法には、モデルのメモリ使用量を削減し、パラメータを減らすことによる計算量の削減がある。さらに、量子化、プルーニング、知識蒸留といった技術も用いられる。量子化ではデータ表現のために用いるビット数を減少させ、モデルサイズを縮小する。プルーニングでは、重要でないパラメータや層を削除することで効率を向上させる。知識蒸留は、大規模なモデルの知識を小さなモデルに移転し、サイズを縮小しながらも性能を維持する。これらの技術は、モデルの効率性を高め、様々なデバイスやアプリケーションでの使用を容易にする。

蒸留(distillation)🔗
大きなニューラルネットワーク(教師モデル)から小さなニューラルネットワーク(生徒モデル)を学習させる手法。教師モデルが出力する確率分布や特徴量を生徒モデルが学習することで、生徒モデルは教師モデルの精度を再現するように学習される。このプロセスは、モデル圧縮の一形態として用いられ、教師モデルのパラメータ数や計算負荷を大幅に削減することができる。蒸留には、ソフトマックス蒸留とハードマックス蒸留の二種類が存在する。さらに、蒸留は学習時間や計算負荷を減らすだけでなく、生徒モデルが教師モデルの汎化能力を維持することも示されており、実用的な手法として利用されている。

量子化
近似的にデータを扱うことをいい、情報量を少なくして計算を効率化する方法。モデルのパラメータやアクティベーション、勾配を低ビット数で表現することによりメモリ使用率を低減し計算効率を向上させる。例えば、32ビット浮動小数点型で表される重みを2ビットで表現することで、画像認識精度の劣化を1.7%に抑えつつ計算コストを大幅に削減できる。このプロセスはネットワークの構成を変えずにモデルの軽量化を図る効果があるが、計算精度の低下を伴う可能性があるため、精度と効率のバランスを考慮する必要がある。量子化の適用はモデルや使用するデータによって効果が異なるため、すべてのケースで一様に適用できるわけではない。

プルーニング
精度の低下を最小限に抑えながら不要な重みを排除するプロセス。このプロセスは重要でないパラメータをモデルから取り除くことで計算コストを削減し、モデルの効率を向上させることを目的とする。プルーニングの方法は主に3つに分けられる。進行的疎化は高精度のベースラインモデルから段階的に重みを除去する方法、正則化法はモデルトレーニング中に疎性を改善するためのメカニズムを適用する方法、ロトリーチケット仮説(LTH)は完全にトレーニングされたモデルからスタートし、一つまたは複数の段階で疎な重みのマスクを得て、そのマスク上での再トレーニングを制限する方法だ。これらの方法は疎なモデルが密なモデルと同等またはそれ以上の遷移学習性能を示し、推論と学習を大幅に加速できることが示されている。特に、正則化に基づく方法は線形微調整において最も良い性能を示し、逐次的疎化法は全体的な微調整において最も良い性能を発揮する。

7. ディープラーニングの社会実装に向けて

7.1 AIと社会

キーワード
AI のビジネス活用と法・倫理 AI による経営課題の解決と利益の創出、法の順守、ビッグデータ、IoT、RPA、ブロックチェーン

AIの本質は経営課題の解決や利益創出に留まらず、新しいビジネスモデルやサービスの創出、顧客体験の向上など多方面でのイノベーションに寄与することにある。技術的成功とビジネス的成功は相互に依存し、統合が重要だ。ビッグデータはAI発展に重要だが、全てのAIアプリケーションで必須ではない。AIはIoTやRPAなどの技術を活用し、定型作業の自動化を可能にする。しかし、専門知識や複雑な判断が必要な業務はRPAには適していない。ブロックチェーンは一部のAIアプリケーションでセキュリティ強化に寄与するが、必ずしも全てのアプリケーションで必要なわけではない。

順序AIシステム利活用のサイクル
AIプロジェクトを計画する
データを集める
データを加工、分析、学習させる
実装、運用、評価する
クライシスマネジメントをする

IoT(Internet of Things)
様々なモノがインターネットに接続されて相互に制御する仕組みのこと。2023年現在、AIとブロックチェインの組み合わせから生まれたABIoT技術が登場し、IoTはさらなる発展を遂げている。サイバーセキュリティの面では、ゼロトラストアーキテクチャが必要とされ、クラウドプロバイダーによるサポートが重要になっている。世界中でIoT対応機器の普及台数は急速に増加し、さまざまな産業での応用が進んでいる。IoTは、モノから収集される膨大なデータを活用し、AIによる分析を通じて新たな価値を創出する可能性を持っている。

RPA(Robotic Process Automation)
定型的なパソコン業務を自動化し、業務効率化を促進する技術。DXの推進にも貢献している。市場は拡大傾向にあり、特に金融企業などが導入を進める。製品は機能スペックによるランクがあり、高スペック製品はAIと連携し判断力や自己学習能力を有する。業務自動化だけでなく経営戦略にも寄与。テレワークの普及に伴いRPAの需要増加、クラウド型は遠隔地からの作業管理に適している。ヒューマンエラー低減と従業員の負担軽減にも効果的。

ブロックチェーン
デジタルデータの記録を改ざん困難な形で保持するための技術であり、主に仮想通貨の分野で使用されている。これは、連続したブロックのチェーンとしてデータを格納し、各ブロックが前のブロックに暗号学的にリンクされているため、一度記録されると変更が非常に困難となる。AIとブロックチェーンの交差点では、AIがブロックチェーンデータの解析、パターン認識、異常検出などに使用されるケースがある。また、AIによる意思決定プロセスの透明性と追跡可能性を高めるためにブロックチェーンが利用される場合もある。ブロックチェーンとAIは異なる技術であるが、両者の相互作用は新たな応用分野を生み出している。

7.2 AIプロジェクトの進め方

キーワード
AI プロジェクト進行の全体像、AI プロジェクトの進め方、AI を運営すべきかの検討、AI を運用した場合のプロセスの再設計、AI システムの提供方法、開発計画の策定、プロジェクト体制の構築、CRISP-DM、MLOps、BPR、クラウド、WebAPI、データサイエンティスト、プライバシー・バイ・デザイン


AI プロジェクト進行の全体像
AIそのものの開発はプロジェクトの一部分に過ぎず、その前後のプロセスが非常に重要。

AI プロジェクトの進め方
AIプロジェクトの進行では、開発フェーズの前後のプロセスも重要。CRISP-DMとMLOpsというフレームワークが体系化されており、CRISP-DMはビジネス理解からデータ準備、モデリング、評価、展開までの6つの段階を含む。MLOpsはAIを本番環境で開発しながら運用する概念で、データ収集から監視までの多様な要素が含まれる。

AIを適用すべきかの検討
AIの適用に関する検討について、AIは単なる目的ではなく、特定の課題を解決するための手段である。そのため、その特性を理解し、ビジネスや技術的な側面での適用可能性を検討することが重要。投資判断には、利活用による利益予測が必要で、最初はルールベースのアプローチを取っても良い。データのフィードバックを通じてAIが継続的に学習し、運用を続けながら推論精度を向上させるアプローチが現実的。しかし、推論精度が100%であることを前提としたビジネスモデルは、現実にはほとんどの場合うまくいかない。AIの推論精度には限界があり、実務上期待できる推論精度を前提として、どのように活用するかを検討することが大切である。また、AI技術は常に進化しているため、最新の進展にも注意を払う必要がある。

AI を運用した場合のプロセスの再設計
AIシステムを運用する際、既存のプロセスを再設計し最適化することが必要。これはAI導入が従来の作業方法や業務フローに大きな変化をもたらすため、効率性や有効性、目的達成のために重要である。再設計プロセスではプロジェクトの全体像を理解し、効率的な開発計画を策定することが求められる。

AIシステムの提供方法
AIシステムは「納品」よりも「サービス」の提供として運用するのが向いている。クラウド上でWebAPIとしてサービス提供する方式や、エッジデバイスにモデルをダウンロードし、常に最新の状態となるように更新を続けるという方式がある。

メリットデメリット
クラウド・モデルの更新が簡単
・装置の故障がない
・ハードウェアの保守・運用が不要
・通信遅延、サーバーの故障が全てに影響(通信影響が大きい)
・ネットワークがダウンしたら動かない(ダウン時の影響が大きい)
・データのプライバシー
エッジ・スピードが速い(リアルタイム性が高い)
・通信量が少ない
・故障の影響範囲が小さい
・モデルの更新が難しい(手間がかかる)
・ハードウェアの保守・運用が必要(機器を長期間保守運用する必要がある)

開発計画の策定
教師データを作るには欲しい出力を定量化する必要があるが、熟練工の技などは定量化が難しい可場合が多い。AIのプロジェクト管理は細かくフェーズ(データを確認する段階、モデルを試作する段階、運用に向けた開発をする段階)を分け、モデルの精度に応じて柔軟に方針を修正できる体制が望ましい。

プロジェクト体制の構築
AIシステムの開発段階から様々なステークホルダーを含めた体制作りが重要であり、ビジネス観点のあるマネージャー・UIやUXを担当するデザイナー・AIモデルを開発するデータサイエンティスト・法的・倫理的な課題を検討するために開発段階から経営者・法務・経営企画・広報間との連携も重要となる。
開発段階から以下のようなことを念頭に入れて体制を整える。

CRISP-DM(Cross-Industry Standard Process for Data Mining)
CRISP-DM(Cross-Industry Standard Process for Data Mining)は1996年後半にDaimlerChrysler、SPSS、NCRの3社によって考案され、1999年にコンソーシアムとして正式に開発されたデータマイニングのためのプロセス論​​​​​​。このプロセスはビジネス理解、データ理解、データ準備、モデリング(分析)、評価、デプロイメント(展開)の6つのステップで構成されている。CRISP-DMはリリースから20年以上経過した現在も、データマイニングプロジェクトにおける事実上の標準であり、業界に依存しないプロセスモデルとして広く利用されている​​。2015年、IBMはCRISP-DMの短所を補うためにASUM-DM(Analytics Solutions Unified Method for Data Mining)というプロセスモデルをリリースした。ASUM-DMはCRISP-DMを基にしており、インフラストラクチャ、運用、プロジェクト、デプロイメントに関するタスクとアクティビティを拡張し、すべてのタスクにテンプレートとガイドラインを追加している。ASUM-DMはCRISP-DMの弱点を補う新しいアクティビティを追加し、既存のアクティビティを強化している​。

要素CRISP-DM
Business Understandingビジネス理解
Data Understandingデータの理解
Data Preparation(データの準備)
Modelingモデリング手法の選択、モデルの作成
Evaluation結果の評価、プロセスの見直し、次のステップの計画
Deployment本番環境への展開


MLOps(Machine Learning Operations)
機械学習のライフサイクルを管理するための、データサイエンティスト、エンジニア、保守運用担当者のコラボレーションおよびコミュニケーションに関する実践手法で、機械学習(ML)とソフトウェア分野での継続的な開発手法であるDevOpsとを組み合わせた造語。ソフトウェア開発ライフサイクル全体におけるワークロードの管理は従来からDevOpsの概念があったが、機械学習プロジェクトにDevOpsを適用する際には、モデルトレーニングなどのCI/CDのプロセス管理やデータサイエンティストとデータエンジニアの職種の役割分担など、機械学習特有の課題を考慮する必要が生じた。これにより、DevOpsをベースに機械学習プロジェクトに合理化された手法としてMLOpsが概念化された。MLOpsは主に、実験的な機械学習モデルを本番システムに組み込むプロセスとして用いられ、自動化を進めて本番モデルの品質を向上させるとともに、ビジネスや規制の要件にも焦点を当てている。MLOpsは、一連のベストプラクティスとしてスタートしたが、機械学習のライフサイクル管理のための独立したアプローチへと徐々に進化しており、モデルの生成、編成、デプロイメントの統合から健全性、診断、ガバナンス、ビジネス指標に至るまで、ライフサイクル全体に適用される。2018年には、GoogleからMLOpsに関するプレゼンテーションが行われ、その後MLOpsとそれに対するアプローチは、企業における機械学習の複雑さと成長に対処できるソリューションとして、AI/MLの専門家、企業、テクノロジージャーナリストの間で実践的な方法論やベストプラクティスとして注目を集め始めた。

BPR(Business Process Re-engineering)
業務の本来の目的を達成するために組織や制度を根本的に見直し再構築する考え方で、デジタル技術やAI技術の進化が新たな可能性を生み出している。これにより自動化、予測分析の高度化、意思決定支援、リアルタイム性の向上などが可能となり、従来よりも最適なビジネスプロセスが構築可能だ。BPRは業務プロセスだけでなく、戦略やビジネスモデル、組織構造・体制、制度・ITシステムまでを包括的に再構築することを指し、BPOや単なる業務改善とは異なるアプローチを取る。既存の業務フローを根本的に見直し、再構築することで、コスト削減・利益最大化、業務効率化・生産性向上、従業員満足度の向上などのメリットがある。

クラウド
クラウドコンピューティングは、インターネットを介してリモートサーバー上のリソースを利用する技術。AI分野では、クラウドはデータ処理やストレージ、AIモデルの訓練や展開などの用途で広く活用されている。利用者は高性能なハードウェアを持っていなくても、クラウドサービスプロバイダーから提供されるリソースを用いてAIアプリケーションの開発や運用が可能である。このため、クラウドコンピューティングはスケーラビリティが高く、必要に応じてリソースを柔軟に調整できる。さらに、コスト効率も優れている。また、クラウドサービスはセキュリティ対策やデータバックアップ機能を提供し、データを安全に管理することができる利点を持つ。これらの特性から、AI技術の普及と共にクラウドの使用はますます重要になりつつある。

Web API
Web APIはウェブ上で公開されているAPIの一種で、必要に応じて呼び出して使用する仕組み。API(アプリケーション・プログラミング・インターフェイス)はプログラムやサービスが外部とやり取りするためのツールであり、開発者はこれを用いて他のアプリケーションやサービスとの連携を実現させることができる。多くのWeb APIは無料で利用でき、Instagram、Twitter、Google、YahooなどのAPIが広く使用されている。また、Web APIを利用することで、異なるプラットフォーム間でのデータの共有や機能の統合が容易になり、新しいアプリケーションの開発や既存のシステムの拡張が可能になる。

データサイエンティスト
データサイエンティストは大量のデータを収集・分析し、それを活用しやすい形に整理し顧客に提供し、問題解決策を提示する職種。データ分析の専門家として、その価値を最大限に引き出し、企業の意思決定や問題解決に寄与する。ビッグデータや機械学習の進展によりデータサイエンティストの役割がより重要になっている。特にDX(デジタルトランスフォーメーション)の推進では、データの収集・解析からシステムの設計・実装・運用に至るまで、業務の変革や新規ビジネスの創出において中核を担っている。

データサイエンティスト協会
2013年に設立された一般社団法人データサイエンティスト協会は、データサイエンティストに必要な知識やスキルの定義、実態調査、情報発信、ガバメントリレーションを含む多岐にわたる活動を実施している。この協会はデータサイエンティストという新しいプロフェッショナル職が健全に発展し、日本社会に貢献することを目指している。具体的には、「スキルチェックリスト」や「タスクリスト」の作成を通じてデータサイエンティストのスキルや知識を定義し、高度IT人材の育成、業界の発展への貢献、啓発活動などを行っている。これらの取り組みはデジタル時代の人材育成や教育改革の重要性を背景に行われている。

プライバシー・バイ・デザイン
プライバシー・バイ・デザイン(Privacy by Design、PbD)は製品やサービスの企画・設計段階からプライバシー保護を組み込む考え方で、1990年代にカナダのオンタリオ州のアン・カブキアン博士が提唱した。このアプローチの目的はユーザーのプライバシーを守ることであり、現在では多くの企業やユーザーに認知され、グローバルスタンダードな施策として広まっている。個人情報を含む大量のデータが管理される現代において、プライバシー・バイ・デザインは特に重要だ。AIによるデータ分析が進む中、データ保護と利用のバランスを適切に取る方法として注目されている。2019年に策定されたOECDのAI原則の多くは個人情報保護の文脈のプライバシー原則と関連付けられ、AIシステム構築時のプライバシー・バイ・デザインの原則に影響を与えている。プライバシー・バイ・デザインには7つの基本原則がある。これらは予防的なデザイン、初期設定としてのプライバシー、デザインに組み込まれるプライバシー、ゼロサムではなくポジティブサム、最初から最後までのセキュリティ、可視性と透明性、利用者のプライバシーの尊重を含む。これらの原則はプライバシーの脅威が生じる前に対処することを目的とし、プライバシー保護をサービスや製品設計に最初から組み込むことを重視している。

セキュリティ・バイ・デザイン
システム導入や運用後ではなく、企画・設計段階からセキュリティ対策を組み込むことでサイバーセキュリティを確保する考え方。このアプローチは情報セキュリティを企画・設計段階から確保するための方策として、内閣サイバーセキュリティセンター(NISC)によって定義され、2021年のサイバーセキュリティ戦略にも重要な要素として取り入れられている。セキュリティ・バイ・デザインを実現するには、調達担当者が「情報セキュリティに関する仕様」を調達仕様書に適切に組み込む方法が必要で、政府調達のシステムにおける基本的な開発手法として要求されている。これにより開発段階での手戻りを抑え、コスト削減と保守性の高い成果物を目指す。この概念はソフトウェア製品やウェブサイトの年間数百件の脆弱性報告を防ぐために生まれた。

バリュー・センシティブ・デザイン
バリュー・センシティブ・デザイン(Value Sensitive Design, VSD)は、技術設計で人間の価値を根本的に考慮するアプローチである。情報システム設計と人間-コンピューター間相互作用の分野から生まれ、倫理的価値を強調し、技術設計における人間の価値への責任を提案する。このアプローチは1980年代後半にワシントン大学のBatya FriedmanとPeter Kahnが提唱し、価値の役割を認識することの重要性を強調する。

ウォーターフォール開発
ソフトウェア開発において段階ごとに進める手法で、各段階は一方向の流れに従って進行する。このプロセスでは、最初に全体の機能設計と計画を決定し、それに従って開発と実装を行う。各段階が完了すると次の段階に移るが、前の段階に戻ることは原則として行わない。この手法は複雑なプロジェクトや、要件が明確で変更が少ないと予想されるプロジェクトに適している。しかし、この手法は変更に対応する柔軟性が低いため、時代遅れと見なされることがあり、多くの企業がアジャイル開発に移行している。アジャイル開発は短い開発サイクルを繰り返し、変更に柔軟に対応できる特徴を持つ。ウォーターフォールモデルはその構造的な厳格さと変更への対応の困難さから、一部の特定の状況以外では用いられることが少なくなっている。

アジャイル開発
ウォーターフォール開発とは異なり、機能ごとに計画から開発や検証を繰り返し行い、最終成果物を完成させる開発手法だ。この方法は仕様変更に柔軟に対応でき、開発コストの削減にも寄与する。アジャイル開発の工程には計画、設計、実装、テストが含まれ、これらを各機能ごとに迅速に繰り返す。変化に対する柔軟な対応が可能で、途中の仕様変更にも対応しやすい特徴を持つ。アジャイル開発の考え方は2001年にアメリカで誕生し、不確実なビジネス環境下でのITツール開発手法として提唱された。この方法では顧客の要望を優先し、価値のあるソフトウェアを迅速に開発し、各機能を短期間でリリースしつつ、開発途中の仕様変更に積極的に対応する。最大のメリットは変化への柔軟な対応能力だが、デメリットとしては、仕様変更が前提であるため、開発全体像の把握が難しく、スケジュール管理が複雑になることが挙げられる。AI開発においては、アジャイル開発が特に効果的で、現状分析、プロトタイプ作成、AIモデル開発、AIモデル検証といった工程を繰り返す。開発後の利用可能性を確認しつつ、必要に応じて再学習を行い、最新のデータを用いて精度を向上させることが重要となる。

SES契約(システムエンジニアリング契約)
システムエンジニアの能力を契約対象とし、エンジニアの雇用時間に応じて報酬を支払う形態。この契約では「作業時間に関してのみ報酬が発生し、成果物に対する責任は発生しない」という点が重要である。これはエンジニアが作成した成果物に対して報酬を支払う請負契約とは大きく異なる。民間企業がAIを開発する際に用いる契約の一つで、特にシステム開発においてこの契約形態が選ばれることが多い。SES契約は業務委託契約の一種で、法的には準委任契約に該当する。準委任契約は特定の業務を行うことを目的とし、成果物の完成義務を負わないのが特徴。

キーワード
データの収集方法および利用条件の確認、法令に基づくデータ利用条件、学習可能なデータの収集、データセットの偏りによる注意、外部の役割と責任を明確にした連携オープンデータセット、個人情報保護法、不正競争防止法、著作権法、特許法、個別の契約、データの網羅性、転移学習、サンプリング・バイアス、他企業や他業種との連携、産学連携、オープン・イノベーション、AI・データの利用に関する契約ガイドライン

データの収集方法および利用条件を確認
AIシステムの開発にはデータの量と質が重要。AIモデルは学習データに基づいて生成されるため、学習データの質と量のバランスが重要となる。特に、データの質には特徴量という分析すべきデータや対象物の特性が含まれ、これが学習データの適切性を決める要因となる。適切な量のデータを集めることも重要であり、そのデータは関連性があり、不適切なバイアスがかかっていない必要がある。これらの要素はAIの精度に直接影響を与え、プロジェクトの成功に不可欠である。

法令に基づくデータ利用条件
データの収集や利用は法的な側面から見ると非常に重要な問題である。特に、個人情報保護法や著作権法などの法律の理解と遵守が求められる。個人情報保護法においては、個人情報を取得する際にその利用目的を特定し、ユーザーに対して明示する必要がある。また、データの収集と利用に関しては、そのデータがどのように取得され、どのように扱われるかについても注意深く検討する必要がある。個人情報の扱いだけでなく、データの安全性やプライバシー保護の観点からも、適切な管理と運用が不可欠である。さらに、著作権法においては、データやコンテンツの使用に関して著作権者の許諾が必要な場合があるため、これらの法律に準拠したデータ利用が求められる。

著作権法論文や写真などの著作物を利用するには、著作権者から許諾を得るのが原則だが、学習用データ作成については一定要件のもと自由に使える例外規定がある。「情報解析の用に供える場合」に著作物を利用することが、営利・非営利を問わず適法とされており、世界的に見ても先進的と言われている。ただし、「著作権物の利益を不当に害する」場合はその限りではない。
不正競争防止法平成30年の改正で、一定の価値あるデータの不正な取得行為や不正な使用行為等、悪質性の高い行為に対する民事措置(差止請求権、損害賠償額の推定等)が規定された。営業機密にあたるデータや限定提供データ。
個人情報保護法等・購買履歴や位置情報などのパーソナルデータ。
・生存する個人の情報が対象となり、すでに死亡した方の個人情報は含まれない
・個人を識別できないように加工し、復元不可能にした匿名加工情報は本人の同意がなくても第三者に提供できる。
・指紋や声紋は個人情報として扱われる。
・個人情報取扱事業者は営利企業の他にNPO法人や町内会なども対象となる。
個別の契約ライセンス契約で利用条件が指定されているデータ。
そのほかの理由Eメールの内容など。
特許法AIが発明をした場合の取り扱いについては現状は規定がない。

個人情報保護法
個人情報保護法における「個人情報」の定義は、個人に関する情報で、かつ個人を特定できる情報を指す。氏名、住所、生年月日などがこれに該当し、単体では特定できない情報も他の情報と組み合わせることで特定可能になる場合は個人情報になる。例えば、電話番号だけでは個人情報とはならないが、氏名や住所と組み合わせると個人情報になることがある。また、文字情報だけでなく、写真や動画、音声も個人情報に含まれ得る。SNSにアップロードされた友人の写真や動画も個人情報になる可能性があり注意が必要。現在持っているデータが単独では個人情報でなくても、将来新たな情報と組み合わせることで個人情報になる場合も考慮する必要がある。

生成AI活用における個人情報保護に関するリスク
2023年9月29日の時点で、生成AIに関連する法律やガイドラインは絶えず変化しており、その検討には最新の情報を継続的に取り入れる必要がある。AIの生成プロセスは、開発/学習と生成/利用の2つの段階に分けられる。これらの段階では、個人情報保護法に関して異なる考慮事項が生じる。開発段階では、AIサービス提供者が個人情報を使用する際に、利用目的に関する規定を遵守する必要がある。これには、個人情報の利用目的の特定、取得時の利用目的の通知または公表、そして必要な範囲を超えて個人情報を利用しないことが含まれる。また、機微な個人情報を扱う場合、原則として同意を得る必要がある。生成/利用段階では、AIサービスのプロンプトに個人情報が含まれる場合の規制が重要になる。従業員が個人情報を含むプロンプトを入力する場合、その情報の使用目的を超えないようにする必要がある。さらに、AIプロンプトに個人情報を入力する際は、第三者への提供規制への配慮も必要であり、個人データの第三者への提供に対する同意の確保が含まれる。

個人情報保護委員会による生成AIサービスの利用に関する注意喚起等について(令和5年6月2日)
個人情報取扱事業者:事業者がAIサービスに個人情報を含むプロンプトを入力する際には、その利用が特定された目的の達成に必要な範囲であることを確認する義務がある。また、事前に本人の同意を得ずに個人データを入力し、そのデータが出力以外の目的で使用される場合には、個人情報保護法に違反する可能性がある。したがって、AIサービス提供者が個人データを機械学習に使用しないことを確認する義務がある。

行政機関:行政機関がAIサービスに個人情報を含むプロンプトを入力する際も、その利用が特定された目的を達成するための最小限度でなければならない。また、保有個人情報が出力以外の目的で利用される場合には、個人情報保護法に違反する可能性がある。したがって、AIサービス提供者が保有個人情報を機械学習に使用しないことを確認する義務がある。

一般の利用者: AIサービスでは、入力された個人情報が機械学習に使用され、その結果他の情報と結びつけられる可能性がある。このことは、AIサービスから出力される情報が不正確である可能性を示す。したがって、利用者はAIサービスに個人情報を入力する際には、これらのリスクを踏まえた判断を行う義務がある。また、AIサービス提供者の利用規約やプライバシーポリシーを十分に確認し、入力する情報の内容を考慮に入れてAIサービスの利用について適切に判断する義務がある。

不正競争防止法
不正競争防止法の改正により、営業秘密と限定提供データの保護が強化された。この法律はデジタル空間での模倣行為の防止、営業秘密や限定提供データの保護の強化、外国公務員贈賄に対する罰則の強化・拡充、国際的な営業秘密侵害事案の手続の明確化を主な内容としている。営業秘密については、ビッグデータを他者に共有するサービスでデータを秘密管理している場合も含め、限定提供データとして保護されるようになった。侵害行為に対する差止め請求や、損害賠償請求訴訟での使用許諾料相当額の増額請求など、営業秘密の保護が強化された。また、国外で日本企業の営業秘密が侵害された場合でも、日本の裁判所で訴訟を提起し、日本の不正競争防止法を適用することが可能になった。

著作権法
著作権法は思想や感情を創作的に表現した作品を保護する法律である。著作権保護の対象となる作品は文芸、学術、美術、音楽の範囲に属し、書籍、音楽、映画、写真、絵画、彫刻、建築作品などが含まれる。2023年5月17日、著作権法の一部が改正され、新たな裁定制度の創設や立法・行政における著作物の公衆送信を可能にする措置が追加された。この改正は5月26日に公布され、一部の措置は2024年1月1日から施行される。この改正により、著作権法はインターネット上の海賊版対策を強化し、著作物の利用と公衆送信の範囲を拡大した。

例外規定
学習用データの作成については一定の要件のもと自由に行える(著作権法30条の4)

著作権法がOKでも他の規定の制約
営業秘密にあたるデータ(不正競争防止法2条6項)、限定提供データ(不正競争防止法2条7項)、購買履歴や位置情報などのパーソナルデータ、ライセンス契約で利用条件が指定されているデータ、「通信の秘密」にあたるEメールの内容、憲法21条2項・電気通信事業法4条)など

特許法
発明は「自然法則を利用した技術的思考の創作のうち高度なもの」と定義されている。特許法29条1項では産業上利用可能なもので新規性、進歩性などの要件を満たすものに特許が付与されると規定されている。2023年の特許法の改正では、特許法の適用範囲が拡大し、デジタル化に伴う事業活動の多様化に対応したブランドやデザインなどの保護が強化された。現行の法制度では人工知能(AI)による自律的な発明は特許の対象外だが、この問題に対する国際的な議論が活発化している。米特許商標庁は2023年に「AI Inventorship Listening Sessions」を開催し、AIが発明者としての地位を得る可能性を討議した。また、AIによる発明の法的保護を求める動きもあり、特定の国ではAIによる発明に特許が認められているが、多くの国では結論が出ていない。特許法においては、デジタル技術の進歩に対応するための法改正が進行中であり、特にAIによる発明の扱いに関しては国際的な議論が続いている。特許法の理解にはこれらの最新の動向に注目する必要がある。

学習可能なデータの収集
AIモデルの訓練データを収集する際は、適切なデータの選定が重要。ディープラーニングでは、データに関するロスを最小化して学習するが、分類問題ではこのアプローチだけでは不十分で、データが少ないクラスの精度低下が起こり得る。オープンデータセットでは多少の偏りは許容されるが、自分でデータを収集する場合、偏りが問題となることがある。特に、出現頻度の低い重要なデータは、集中的に蓄積することが望ましい。

データの網羅性

データの偏りをなくすオープンデータセットのように大量のデータなら多少偏りがあろうともある程度の精度が上がるかもしれないが、自身でデータを集める場合など、十分な量のデータを集めるのが難しい場合など、その偏りはクリティカルなものになる。
データの網羅性転移学習などを利用したら、ある程度はデータの数が少ない状況に対する精度が保証はされるが、十分な制度の確保は難しい。可能な限り広い状況を網羅できるようにデータを準備しておく必要がある。
データの質データ内に認識に必要となる情報がノイズで殆ど消えていたり、そもそも含まれていなかったりすると、そこからの学習は難しくなる。


サンプリングバイアス
選択バイアスとも呼ばれ、不適切な標本抽出によって母集団を代表しない特定の性質のデータがまぎれこんでいることで、現実世界の偏見をそのまま反映してしまうこという。データやアルゴリズムのバイアスに関して検証するためにもシステムの透明性(transparency)や説明責任・答責性(accountability)が開発側に求めれれている。

データがそもそもデータベースに登録されていない事による偏りレイプや強盗、膀胱などの6割が警察に通報されていないため、データベースに登録されていないと言われている。その状態で犯罪予測を作ったとしても、その信頼性は疑問視されてしまう。
欧米主導の共有データセットが学習に使われる画像認識において「baby」や「family」と検索するとアングロサクソン系の画像ばかりが表示され、アジア系やアフリカ系が表示されないと指摘されたことも。
人種・性別・学歴などへ偏見優秀な社員を判断するAIを人事評価に用いて、学歴や性別などの偏見(バイアス)が潜在したまま継承されてしまう恐れや、犯罪者の再販リスクを予測するAIではアフリカ系の人をより高く再販すると予測する例がある。

オープン・イノベーション
他企業や他業種と連携、産学連携が増えてきた理由はデータを保有する組織、データ分析やアルゴリズム開発に優れた組織、分析結果やアルゴリズムを利用してビジネス展開する組織がそれぞれ一致しないためである。そこで、オープン・イノベーションにより企業間のコンソーシアムや、産学連携、企業の共同開発を通じて、社会的なインパクトを生むことを指す。留意点として、「学習や推論の結果、生成される学習済みモデルの性質、効果が契約時に不明瞭な事が多い」、「学習済みモデルの性質や効果が学習用データセットによって左右されること」、「ノウハウの重要性が高いこと」、「生成物について再利用の需要が存在すること」がある。

外部の役割と責任を明確にした連携オープンデータセット
サービスやプロダクトの提供では、データ保有、分析、ビジネス展開の異なる組織間での連携が増えているが、共同開発や開発委託における認識のズレやプロジェクト管理の問題が生じることがある。企業間での文化やコミュニケーションの不足は、オープン・イノベーションにおいても問題となりうる。システム開発者と利用者には協力し合う法的義務があり、役割分担の明確化が重要である。ディープラーニングなどの開発では、アルゴリズムのチューニングと試行錯誤を繰り返すため、コミュニケーションと契約交渉が特に重要である。学習済みモデルの性質や効果の不明瞭さ、データセットの影響、ノウハウの重要性、生成物の再利用需要に留意し、適切な契約形式の採用とステークホルダー間の認識のすり合わせ、適時のコミュニケーションとプロジェクト管理が必要である。

AI・データの利用に関する契約ガイドライン 詳細リンク
経済産業省は、AI・データ契約ガイドライン検討会を設置し、2018年に「AI・データの利用に関する契約ガイドライン」を策定、2019年に改訂版(ver.1.1)を公表。開発プロセスをアセスメント段階、PoC段階、開発段階、追加学習段階に分け、それぞれの段階で必要な契約を結ぶことで、試行錯誤しながら納得できるモデルを生成するアプローチがしやすくなるとしている。アセスメント段階ではモデルの生成可能性を検証し、レポート等の成果物を作成し、秘密保持契約などの契約を行う。PoC段階では、ユーザが求める精度のモデルが生成できるか検証し、レポートやモデルを成果物として、導入検証契約書を結ぶ。開発段階では、学習済みモデルの生成を目的とし、学習済みモデルを成果物として、ソフトウェア開発契約書を締結する。追加学習段階では、追加の学習データで学習を行い、再利用モデルを成果物として、保守運用契約書や学習支援契約書を結ぶ。

契約の類型としては「データ提供型」「データ創出型」「データ共有型」の3つがある。データ提供型ではデータの譲渡と利用許諾が行われ、契約によって利用権限が定められる。データ創出型では、データの創出に関与する複数の当事者が利用権限を取り決める。データ共有型では、プラットフォームを通じたデータ共有が行われる。このガイドラインは、データの利用に関する契約とAI技術を利用するソフトウェアの開発・利用に関する契約の二つの部分で構成される。各セクションでは、主な課題や論点、契約条項の例、条項作成時の考慮要素などが整理されている。このガイドラインはAIとデータの契約に関する基準を設け、関連分野における安全かつ効率的な取引を促進することを目的としている。

AI の作成・利活用促進のための知財制度の在り方
日本政府は2017年に新たな情報財検討委員会報告書を公表しており、報告書の中で「AI の作成・利活用促進のための知的財産権の在り方」として様々な議論を行っている。そこでは『機械学習に関する「学習用データ」、「AI のプログラム」、「学習済みモデル」、「AI 生成物」を具体的な検討対象として、これらの作成・利活用促進のための知財制度の在り方について、検討することが必要である』と報告されている。

知的財産推進計画2023⇒資料
日本政府が公表した「知的財産推進計画2023」は、知的財産の保護と活用に関する政策の新たな方向性を示すものである。この計画の特徴的な部分は、生成型AIとそれに関連する著作権侵害問題に焦点を当てている点であり、人工知能(AI)によって生成されるコンテンツの著作権に関する問題を明確にし、具体的な侵害事例や法的解釈を整理し、対応策を検討する意向を示している。目的は、知的財産の創出を奨励しながら、同時に生成型AI技術の利用を促進するための方策を探求することである。この計画には、スタートアップや大学を対象とした知的財産エコシステムの強化も含まれており、これにより新しい技術やアイデアを生み出し、知的財産権の保護と活用を通じて十分な報酬を得られる環境を整備することを目指している。政府は、多様なプレイヤーが知的財産の価値を最大限に引き出し、社会を変革することを重視しており、知的財産の創造、保護及び活用に関する施策を集中的かつ計画的に推進する意向を示している。政府は、この計画の策定にあたり活発な議論を行っており、生成型AIと著作権問題についての新たなガバナンスモデルの確立に向けた取り組みが進められている。このモデルが具体化されれば、AIが創造したコンテンツに対する著作権の扱いや、それに起因する著作権侵害の問題に対する新たな解決策が示される可能性がある。

7.4 データの加工・分析・学習

キーワード
データの加工、プライバシーの配慮、開発・学習環境の準備、アルゴリズムの設計・調整、アセスメントによる次フェーズ以降の実施の可否検討、アノテーション、匿名加工情報、カメラ画像利活用ガイドブック、ELSI、ライブラリ、Python、Docker、Jupyter Notebook、 説明可能AI (XAI)、フィルターバブル、FAT、PoC

データの加工
ディープラーニングにおいて開発者が予想しない振る舞いに注意する必要があり、生データを適切に加工することが重要。例えば、動画を静止画に変換する、特定エリアのデータを切り取るなどの処理が含まれる。また、教師あり学習では人間による正解データのアノテーションが必要で、このプロセスにはばらつきの問題がある。この問題を解決するためには、アノテーションの基準を明確にし、作業者の選定やレビュープロセスを適切に行うことが必要。

アノテーション
アノテーションとはあるデータに対する正解データ(メタデータ)を付与すること。教師あり学習では、アノテーションを作成する必要があり、①アノテーション定義が曖昧、②アノテーションを人間が行う場合の個人差・感性の違い、③専門的な知識が必要な場合の人材確保、④認知容量を超える規模(手作業・人間の能力や人的コストの限界)、⑤不注意によるミスといった課題がある。アノテーションの要件をできるだけ明確にし、適切な人材に作業を分配し、レビューをプロセスに組み込むことが重要となるため、要件などはマニュアルを作ってサンプルを提示するなど、作業をできる限り明確化しておくと良い。大量のデータを扱う際は外部に委託するのも選択肢に入れておく。

プライバシーの配慮
画像解析技術の向上により、店舗に設置されたカメラを通じて来店者の属性や行動のデータを収集することが可能になっている。これは商品の配置や顧客満足度の向上に役立つと期待されている。しかし、プライバシーに関する懸念もあり、来店者の識別には生データ(顔の画像)の代わりに特徴量を用い、その後生データを迅速に破棄する技術が用いられている。さらに、データを匿名化して個人の特定性を低下させる方法が採られている。これらのデータは「匿名加工情報」として知られている。

匿名加工情報
特定の個人を識別できないように個人情報を加工し、当該個人情報を復元できないようにした情報。この加工には、個人を特定できる記述や個人識別符号の全部または一部を削除することが含まれる。事業者は、匿名加工情報の加工方法等の情報漏洩防止措置と、匿名加工情報に関する苦情の処理・適正な取扱い措置の公表が義務付けられている。また、事業者は匿名加工情報を作成した際に、その情報に含まれる個人に関する情報の項目を公表する義務があり、第三者に提供する場合にはその提供方法も公表する必要がある。さらに、自ら作成した匿名加工情報や受領した匿名加工情報を、本人を識別する目的で他の情報と照合することは禁止されている。この情報は、本人同意なしに事業者間でのデータ取引やデータ連携を含むパーソナルデータの利活用を促進するために、個人情報保護法の改正により新たに導入されたもの。

ELSI(Ethical, Legal and Social Implications)
科学技術の開発に伴い生じる倫理的、法的、社会的な課題を包括的に検討する試みだ。この概念は特に人工知能や機械学習など幅広い新興科学技術の倫理的、法的、社会的影響または側面を予測し対処する研究活動に適用される。ELSIで議論される代表的な課題にはAIシステムにおける責任体制、情報セキュリティ、そしてデータ扱いの不正行為の防止が含まれる。

カメラ画像利活用ガイドブック
経済産業省と総務省は商用目的でカメラ画像を利活用する際の配慮事項を整理し、「カメラ画像利活用ガイドブックver3.0」を策定した。このガイドブックは「IoT推進コンソーシアム データ流通促進ワーキンググループ」の一環として作成され、プライバシーやデータ利活用に関する有識者が参加し、令和2年及び令和3年の個人情報保護法改正への対応、プライバシー保護やガバナンスの観点からの整理を行い、令和4年2月に改訂版を公表した。このガイドブックは法令遵守を前提に、生活者と事業者間の理解や信頼関係構築を促す目的で作成された。

開発・学習環境の準備
AI開発では、Pythonが最も広く使われているプログラミング言語であり、その理由は多岐にわたる。Pythonは、他の主要な言語に比べて非常に効率的で、初心者にも理解しやすい英語のようなコマンドと構文を備えている。Pythonは、データサイエンスからデータ操作に至るまで、幅広い用途に使用される多くのオープンソースライブラリを提供している。これらのライブラリには、TensorFlow、PyTorch、NumPy、Scikit-Learn、SciPy、Pandas、Kerasなどが含まれる。これらは、深層学習アプリケーションの開発に特に適している​​​​​​​​​​​​​​​​​​​​​​。環境の管理には、pyenv、virtualenv、pipenv、Dockerなどのツールを使用して、OSのレベルから環境の一貫性を保つことが可能となる。

Docker
コンテナ仮想化を用いたオープンプラットフォームで、アプリケーションの開発、配布、実行を効率的に行える。Dockerはコンテナ型で、処理が軽量なため、異なるサーバー間でも同じ構成の環境を簡単に構築できる。これにより、開発者は異なるOS間でもアプリケーションの挙動に一貫性を保ちながら、ストレスなく環境構築や開発を進めることが可能。

Google Colaboratory
Googleが提供する、ブラウザからPythonを記述し実行できるサービス。ホスト型のJupyter Notebookサービスとして提供され、ウェブブラウザ上で操作できるため、Pythonの環境をインストールせずに利用できる。Colabは機械学習やデータ分析、画像生成やAIイラストなどにも応用でき、CPUやGPUなどの追加リソースも提供される。利用はGoogleアカウントのみで可能で、追加料金は発生しない。ただし、リソースの確保は保証されていないため、特にGPUにはアクセス制限がある。無料と有料のプランがあり、商用利用などリソースを多く使用する場合は「Colab Pro」が推奨される。

Jupyter Notebook
コードを1行ずつ実行し、データと結果を確認できるインタラクティブな実行環境で、データ分析やAI開発に広く利用されている。最新版の「Jupyter Notebook 7」はJupyterLab 4.0をベースに設計され、コードデバッグをセルごとに行う「Visual Debugger」、他のユーザーと同時に編集できる「Real-Time Collaboration」機能、ダークテーマのデフォルト化、多言語サポートなどの新機能が追加された。

ライブラリ
機械学習で使用する代表的なライブラリは以下の通り。

TensorFlowGoogleが開発したpythonのディープラーニング用のライブラリ。
CNTKMicrosoft 社が提供するpythonのディープラーニング用のライブラリ。
CaffeBerkeley Vision And Learning Center が提供するオープンソースのディープラーニング用ライブラリ。
Chainer
日本のPFN社(Preferred Networks)が開発したディープラーニング用のライブラリである。特徴であるDefine by Runは高く評価されている。Define by Runの特徴は、計算グラフの構築と同時にデータを流して処理を並行して実行する方式でデータ構造によってモデルを変えやすい。2019年12月、開発元のPFN社はChainerから、Facebookが主導開発しているPytorchに移行すると発表した。
Pytorchpythonのディープラーニング用のライブラリである。最初はFacebookの人工知能研究グループAI Research lab(FAIR)により開発された。PyTorchはフリーでオープンソースのソフトウェアであり、修正BSDライセンスで公開されている。
scikit-learn機械学習全般に強いライブラリ。
機械学習のライブラリの1つで複数のトイデータセットが入っている。
・アヤメの品種データセット
・ボストン市の地区別住宅価格データセット
・数字の手書き文字データセット
・糖尿病患者の診断データセット
・生理学的特徴と運動能力の関係のデータセット
scipyscipyライブラリは、Pythonで配列や行列の演算などを扱うときに用いられるnumpyライブラリを内包しているため、統計などの高度な数学的計算を簡単に実行することができる。
seabornデータの可視化(グラフ作成)を行うライブラリ。
Numpy線形代数の計算に強いライブラリ
OpenCV当初Intelが開発した画像認識ライブラリであり、2006年に1.0がリリースされ、2015年には3.0がリリースされている。

アルゴリズムの設計・調整
AIでは多くのパラメータが自動的に設定され、その複雑さからブラックボックス化(どの変数が重要かなどのシステム全体の説明が困難になる現象)が問題となることがある。このため、モデルの判断根拠や解釈を明らかにするXAI(explainable AI、説明可能AI)の開発が重要視されている。現在、XAIは結果の出力だけでなく、その根拠やモデルの解釈を明らかにできるよう進化している。ただし、XAIは説明可能性とモデルの性能の間にトレードオフが存在することが一般的に認識されている。これは、より高い説明可能性を求めると、時にはモデルの複雑さや性能が犠牲になる場合があることを意味する。このバランスをどう取るかが、XAIの開発における重要な課題である。

説明可能AI (XAI)
説明可能AI(XAI)は、AIがデータを分析し得た結果に至る理由を説明できる技術。特にディープラーニングのようなモデルは「説明できないAI」とされることがあり、その解決策としてXAIが重要視されている。ディープラーニングは、コンピューター自身が特徴量を探し出し学習するため、結果に至る過程が人間には理解しにくい。XAIの重要性は、AIの普及に伴う責任の所在の複雑化や、EUのGDPRによる個人データ保護の強化から来ている。また、医療や金融など、多様な業界でXAIの需要が高まっている。XAIの説明方針には大局的な説明や局所的な説明があるが、XAIも万能ではなく、特定の文脈では誤解を招く可能性があることに注意が必要。

DARPA(the Defense Advanced Research Projects Agency)
2017年7月、カリフォルニア州パロアルトにあるXerox PARC研究所は、米国国防先端研究計画局(DARPA)の説明可能なAI(XAI)プログラムに選ばれた。DARPAはこのプログラムを2015年に立ち上げ、人工知能システムをより理解し、信頼し、効果的に管理できるようにすることを目的としている。この4年間のXAI研究プログラムは2017年に開始され、第1フェーズ(18ヶ月)ではXAIシステムの初期技術デモンストレーションが行われ、第2フェーズ(30ヶ月)ではシステム開発者とXAI評価者が選んだ課題に対する一連の評価が含まれている。

フィルターバブル現象
フィルターバブル現象とは、インターネット上で自分が見たいと思う情報しか見えなくなる現象。これは、アルゴリズムが利用者の検索履歴やクリック履歴を分析し、その人の思想や行動特性に合わせた情報を作為的に表示することで発生。現代のインターネット体験はパーソナライズされており、利用者ごとに最適化されたコンテンツが表示されるため、似た情報や同じ視点に囲まれがち。異なる意見が目に入りにくくなる問題がある。この現象は2011年にアップワージー社のCEO、イーライ・パリサー氏によって提唱された。彼はインターネット上で自分が見ている世界が他人にも同じように見えているわけではないと指摘。パーソナライズ機能とフィルタリング機能により、利用者が情報の泡に包まれる概念を提唱。フィルターバブル現象は2016年の米国大統領選挙やSNSのタイムラインなど様々な場面で見られる。例えば、2016年の米国大統領選挙では、Facebook上で特定の候補者を支持する人々にはその候補者を支持する投稿のみが表示され、反対派の情報は見えなくなった。これによりユーザーは自分が支持する党を他の多くの人も支持していると錯覚。また、新型コロナウイルスワクチンに関する情報でも、フィルターバブルによりデマが拡散しやすくなる問題がある。フィルターバブルの問題点としては、思考の偏り、孤立、情報漏えい、新規顧客獲得の機会の減少などが挙げられる。情報が偏ることで自分の考えに近い意見のみが正しく見え、他の意見を理解するのが難しくなる。また、フィルターバブルに囲まれることで、他者との情報の共有が減り、孤立する恐れがある。しかし、一方で利便性や売上向上などのメリットも存在。フィルターバブルによってユーザーの好みに合った情報が自動的に提供され、検索の手間が省ける利点がある。フィルターバブルを防ぐための対策としては、プライベートブラウズの活用、アルゴリズムの解除、インターネット以外の情報源からの情報収集が有効。また、フィルターバブルと似ているが異なる概念として「エコーチェンバー」がある。

FAT(fairness, accountability, and transparency)
プライバシーや公平性などの問題に取り組む研究領域やコミュニティを指す。ACM(Association for Computing Machinery)は、機械学習、法学、社会科学、人文科学の専門家を交えた国際会議ACM FAccTを開催し、様々な研究発表や議論が行われている。これはコンピュータ科学の研究に重点を置きつつ、法律や社会科学、人文科学の研究にも焦点を当てている​​。「人間中心のAI社会原則」には、「AIを利用しているという事実の説明」、「AIに利用されるデータの取得方法や使用方法」、「AIの動作結果の適切性を担保する仕組み」に関する指針が含まれている。これらの原則はAIの透明性と説明責任を強調し、個人のプライバシーを保護し、公正なAI利用を促進することを目的としている。具体的な内容については追加の情報が必要だが、これらの情報はAIの倫理的使用と社会的影響に関する議論の重要な部分を形成している。

アセスメントによる次フェーズ以降の実施の可否検討
アセスメントを通じて次のフェーズの実施の可否を検討する過程において、まずは対象データの取得方法やタイミングについて決定する。これには、同様の問題に対する事例や文献の調査が含まれる。次に、運用時の推論時間を考慮し、最適なモデルを選択する。ここで重要なのは、ビジネスへの影響をどのように予測し、AIの適用箇所を特定するかである。最終的には、イメージ・シミュレーションを行い、当初設定した目標(例えば精度など)が達成可能かどうかを判断する。このプロセスを通じて、AIの導入がビジネスに与えるインパクトを明確にし、効果的な適用を図る。

PoC(Proof of Concept)
Proof of Concept(PoC)は特定の技術やアイデアが実際に機能するかを確認するための実験やプロトタイプを指す。アイデアが実用的であることを証明する目的で使用される。開発者やチームはアイデアを実装し、その機能を確認するためにPoCを用いる。投資家や顧客へのアイデアの実用性の実証にも用いられる。通常、プロトタイプとして実装され、実際のシステムとは異なる機能や性能を持つこともある。アイデアの検証や検証結果に基づく改善のために使用される。新しい技術やサービスの開発で重要な役割を担い、技術的リスクやコストを抑える効果がある。開発のスピードを上げることが可能となる。

7.5 実装・運用・評価

キーワード
本番環境での実装・運用、成果物を知的財産として守る、利用者・データ保持者の保護、悪用へのセキュリティ対策、予期しない振る舞いへの対
処、インセンティブの設計と多様な人の巻き込み著作物、データベースの著作物、営業秘密、限定利用データ、オープンデータに関する運用除外、秘密管理、個人情報、GDPR、十分性制定、敵対的な攻撃(Adversarial attacks)、ディープフェイク、フェイクニュース、アルゴリズムバイアス、ステークホルダーのニーズ

本番環境での実装・運用
本番環境での実装・運用は、PoC検証を終え、事業における十分な価値が確認された段階で行われる。クラウドを活用する場合、サービスのAPI化やサーバ数の増加による負荷分散が重要である。エッジコンピューティング環境では、遠隔からのモデル更新やメンテナンスの仕組みが求められる。また、システムの故障や障害に対応するための運用体制の構築も必要となる。

成果物を知的財産として守る 
収集・生成したデータや学習済みモデルは、一定の条件を満たせば著作権法での保護は難しいが、営業秘密や限定提供データ、知的財産として保護される余地がある。日本の知的財産制度上の取扱いとしては学習済みモデルの利用者に創作意図があり、かつ創作的寄与がある場合において著作物性が認められる。

限定提供データ
2018年5月の不正競争防止法の改正により、新たに「限定提供データ」の保護が導入され、2019年7月1日から施行された。この改正により、特定の者に業として提供される情報で、電磁的方法によって相当量蓄積されている技術上または営業上の情報が保護対象に加わった。これには、従来の「営業秘密」に加えて「限定提供データ」も含まれるようになった。限定提供データが保護されるための要件は、①限定提供性(特定の者に提供する情報であること)、②相当蓄積性(電磁的方法によって相当量蓄積されていること)、③電磁的管理性(IDやパスワードなど電磁的方法によって管理されていること)の3つだ。この改正により、限定提供データの不正取得などが不正競争行為とされるようになった。また、この改正に伴い「限定提供データに関する指針」も2019年1月に公表された。

データベースの著作物
著作物は「思想・感情」を「創作的」に「表現」したもの(著作権法2条1項1号)なので数値データは該当しないが、データの集合全体としてデータベースの著作物として保護される可能性がある(同法12条の2第1項)。学習用データセットは保護の対象になり得るが、ビッグデータなどはデータ選択の「創作性」が認められる可能性は低い。

営業秘密
不正競争防止法(以下、不競法)における営業秘密は、秘密管理性、有用性、非公知性の要件を満たせば保護される。営業秘密とは、「秘密として管理されている生産方法、販売方法その他の事業活動に有用な技術上または営業上の情報であって、公然と知られていないもの」(不競法2条6項)がある。2023年6月に成立し、2024年4月に施行される改正法には、デジタル空間における模倣行為の防止、コンセント制度とその適用除外、限定提供データの保護範囲の整理、技術上の秘密の使用に関する推定規定の拡充、国際裁判管轄規定の創設及び日本法の適用範囲の明確化、損害賠償額の算定規定の拡充、外国公務員贈賄罪の法定刑の引き上げ、外国公務員贈賄罪の処罰範囲の拡大など多くの重要な点が含まれる。特に、限定提供データの保護範囲の整理において、以前の「秘密として管理されているものを除く」という要件が「営業秘密を除く」に改められ、保護の隙間が解消された。また、営業秘密の「使用」に関する推定規定が拡充され、営業秘密侵害行為の類型が明確にされた。さらに、営業秘密が海外へ流出した場合や、日本国内で事業を行う営業秘密保有者の営業秘密が日本国内で管理されている場合には、日本の裁判所に国際裁判管轄が認められ、日本の不競法が適用されるようになった。

利用者・データ保持者の保護
利用者やデータ保持者が文書正誤対応のために依頼し、費用を払うことがある。データに支払いをせずに詳細な文書を作成し保管するのは困難だが、「データベース著作物」として保護を受ける可能性がある。データが体系的に整理され、検索可能に構築された場合、データベース著作物の創作性が認められ保護を受けることができる。しかし、データを細分化して配布した場合、創作性が認められず、データベース著作物としての保護は受けられないかもしれない。学習済みモデルは、プログラム部分が「思想・感情」を「表現したもの」であり「オリジナリティ」を有する場合、著作物として認められる。AIが自動的に生成した作品は、利用者に「創作的意図」や「創作的寄与」がなければ、著作物とは認められない。他人の著作物を使って学習済みモデルを作成する場合、原則として著作権者の承諾は不要だが、著作権者の利益を不当に害する場合は例外だ。また、有料で提供される学習用データセットを無断で利用する場合は、著作権者の承諾が必要。


GDPR(EU一般データ保護規則)(General Data Protection Regulation) :
2018年5月にGDPRの運用が開始された後、データ保持者の権利・利益を強化するための多くの動きがあった。日本企業はEU向けサービスを提供する際、GDPRの法的規制の適用を受ける可能性がある。GDPRの特色として、データポータビリティの権利が認められており、特定のサービスが特定のユーザーに関して収集・蓄積したデータを他のサービスでも再利用することが可能である。2019年1月、日本とEUは相互に十分なデータ保護の水準を有していると認め合う合意(十分性認定)を行った。また、GDPRの執行に関する新規則の提案や、EUと米国間のデータプライバシーフレームワークに関する進展など、最新の情報に留意する必要がある。

十分性制定
個人データを扱う企業や組織には、そのデータの取り扱いが適切であることを保証する枠組みを定める必要がある。これは、特定の国や地域の法律や規制に準拠してデータを扱うことを求めるもので、個人データ保護法に基づく。GDPR(一般データ保護規則)において、十分性制定は特に重要で、EU外の国のデータ保護法に適合する場合に限り、EU外へのデータ移動が許可される。2023年7月10日に、欧州委員会は新しいデータプライバシーフレームワーク(DPF)、しばしば「プライバシーシールド2.0」と呼ばれるものを採択した。この新しい枠組みは、アメリカのスパイ機関による情報収集を制限し、特定の種類のデータのみを収集するように条件を設けている。また、EU居住者は、独立したデータ保護審査裁判所を通じて訴訟を起こすことが可能だ。この裁判所は、米国政府外のメンバーで構成され、必要に応じて救済措置を指示できる。アメリカの企業は、個人データの削除、第三者との共有時の保護、データの最小化、目的の限定、比例原則など、プライバシーに関する責任を守ることに同意することで、DPFに参加できる。しかし、プライバシー擁護者や一部のEU機関は、この新しい合意が欧州のプライバシー基準を十分に満たしていないと指摘している。

オープンデータに関する運用除外
不正競争防止法で「その相当量蓄積されている情報が無償で公衆に利用可能となっている情報と同一の限定提供データを取得し、又はその取得した限定提供データを使用し、若しくは開示する行為」と定義されている。
オープンデータに関する保護と利用のバランスが図られている。学習済みモデルをデータの組み込まれたプログラムとしてプログラムの著作物として保護できる余地があるが、ディープラーニングで自動的に生成されるパラメータ値だけを取り出した場合は(創作性などの観点から)著作物になるかどうかは議論が分かれる。学習モデルをデバイスに組み込むならば、暗号化や難読化の処理を施してリバースエンジニアリングを難しくするなどの秘密管理をすることも考慮できる。これによって営業秘密としての保護を受けるのと同様の効果が得られる。学習モデルをデバイスに組み込むのであれば、暗号化や難読化などの処理を施して、リバースエンジニアリングを困難にすることが多い。

オープンデータへの取り組み義務
学習用データの大量かつ効率的な収集が重要視されている。官民データ活用推進基本法は平成28年12月14日に平成28年法律第103号として制定され、令和3年に改正された。この法律により、国と地方公共団体はオープンデータの取り組みを義務づけられており、これは国民の参加や官民協働を通じて課題を解決し、経済を活性化し、行政を高度化し効率化することを目指している。オープンデータへの取り組みには、データの二次利用を促進するための契約書アドオンやデータポータルサービスの利用が含まれている。これにより、行政機関が公開するデータを横断的に検索し、視覚的に表示することが可能になる。オープンデータに取り組む自治体の一覧は公開されており、新たに取り組む自治体はデジタル庁への連絡が必要だ。地方公共団体にはオープンデータの取り組みガイドラインがあり、公開方法には自治体のWebサイト、府省や民間団体のサイトへの掲載、データカタログサイトの構築などがある。公式サイト以外のサイトで公表する場合は、利用者が簡単にアクセスできるよう公開先のURLを公式サイトに掲示する必要がある。

故人のデータ利用
実演家や著作者の死後における人格的利益の保護(著作権法60条・同法101条の3)、パブリシティ権(名前、肖像、画像、音声の商業的な利用)、死後のプライバシー(post-mortem privacy)のほか、死者に対する宗教的崇敬感情にも配慮する。

「悪用」へのセキュリティ対策
システム運用において、多様な攻撃や想定外の行動への対処が必要。フィッシング、内部不正、脆弱性の悪用、ランサムウェアなどの被害が特に重要だ。また、生成AIを利用したサイバー犯罪の増加により、新たな脅威への注意が求められる。対策としてシステム稼働の監視、通信相手の認証、アクセス制限、データの暗号化、データ改変の検知が挙げられる。さらに、人間中心のセキュリティ・デザイン、サイバーセキュリティのオペレーティング・モデルの変革、脅威エクスポージャ管理も重要なトレンドである。これらの対策は、最新のセキュリティ脅威に適応するために常に更新されるべきである。これらの対策はシステムのセキュリティを強化し、攻撃者によるデータやモデルの改竄・盗取、不正な実行、なりすまし等のリスクを減らすのに役立つ。また、システムの脆弱性を利用した不正アクセスの防止にも繋がる。

敵対的な攻撃(Adversarial attacks)
機械学習モデルに誤った認識をさせるために意図的に作られたデータを使用する攻撃方法。この攻撃は、ニューラルネットワークに小さな入力の変更を加えることで、その結果を大きく変えることが可能。特に画像認識や自然言語処理などの機械学習タスクにおいて重要であり、セキュリティ上の問題を引き起こす可能性がある。最新の研究動向において、東京大学のチームはニューラルネットワークの「幅」を広くすることが敵対的攻撃への耐性を獲得する上で重要であるという知見を得た。この研究は「平均場理論」を用いた数学的解析に基づいている。また、敵対的訓練という防御手法もあり、これはモデルを通常のデータだけでなく、敵対的サンプルと共に訓練することでモデルのロバスト性を向上させるもの。敵対的攻撃には、ホワイトボックス攻撃とブラックボックス攻撃の二つがある。ホワイトボックス攻撃では、攻撃者がAIの内部情報(アルゴリズム、パラメータ、学習データ等)を完全に知っている状況で行われる。一方、ブラックボックス攻撃では、攻撃者がAIの内部情報の一部または全てを知らない状況で行われる。敵対的攻撃は画像だけでなく、音声や自然言語処理にも応用されている。音声の敵対的サンプルでは、スマートスピーカーなどの音声認識AIに微小な変更を加えた音声を入力することで、全く異なる命令を実行させることが可能。また、機械翻訳タスクにおいても、合成音声や自然音声を含む文章に誤りを加えることで、ニューラルネットワークモデルの翻訳を誤らせることができる。

ディープフェイク
ディープフェイクはディープラーニング技術を用いて実際には存在しないリアルに見える画像や動画を生成する技術。この技術は2018年に元アメリカ大統領オバマの偽の演説動画が話題になった時に広く知られるようになった。その後、様々な方法でディープフェイクが作られ、社会に影響を与えている。例えば、ナンシー・ペロシ下院議長の演説動画が遅く再生され、酔っ払っているように見せる偽動画が拡散されたことがある。最近では、誰でも簡単にフェイク動画を作れるアプリケーションも登場しており、中国の「Zao」アプリや日本の「Xpression」アプリなどが例として挙げられる。これらのアプリは、ユーザーの顔を映画やドラマの登場人物の顔と入れ替えることができる。一方、ディープフェイクを検出する技術も進化しており、GoogleやFacebookなどの大手IT企業が対抗技術を開発している。これらの技術はディープフェイクを見抜くために重要な役割を果たしている。ディープフェイクはそのリアリズムと潜在的な悪用のリスクにより、今後も注目される技術だ。社会においてディープフェイクとどのように向き合うかは、重要な議題となっている。

フェイクニュース
虚偽の情報で作られたニュースを指し、意図的に拡散される偽のニュースを意味する。最近では、AIを使用してディープフェイク動画が作られることもあり、社会への影響が深刻だ。フェイクニュースは感情的な反応を引き起こし、誤りが訂正された後も人々の意識に影響を与え続けることがある。2016年アメリカ大統領選挙時、フェイクニュースが選挙結果に影響を与えた可能性が指摘されている。フェイクニュースはマイノリティにとって特に致命的であり、大きな事件が起きたときに差別意識を表面化させ、拡散を容易にする。この問題に対する対策は、特に欧米を中心に検討されている。

予期しない振る舞いへの対処
AIはデータセットのバイアスを受けたりアルゴリズムの限界があるため、アルゴリズムバイアスよって画像分類で誤認識を生じたり、履歴書審査で性別による差別が起こるなどの解決が難しい課題もある。さらに名誉毀損の発言を取り除いたり、フェイクニュースなど偽りの情報が流れないようにチェックするのはAIには難しいケースもあるため、AIと人を組み合わせたプロセスの検討も必要。過去にはインターネット上で意見交換をするフォーラムを運営・管理する側が、「フォーラムに他者の名誉を毀損する発言があることを知りながら措置を取らなかった」として不作為による不法行為の成立が認められた裁判例がある(東京高判平成13年9月5日。いわゆる「ニフティサーブ事件」)。

アルゴリズムバイアス
Amazonは2014年から人材採用のためのAIツールの開発を進めていた。このツールは履歴書の内容を評価し、応募者をランク付けする機能を持っていたが、訓練に用いられた過去10年間の履歴データは男性志願者が多い傾向にあったため、データセットに偏りが生じていた。その結果、AIは「女性」や女子大学の名前を含む履歴書に減点する問題が発生した。この問題の原因は、過去の技術職への応募がほとんど男性であったことにある。Amazonはこの問題を解決しようとしたが、AIが候補者を公平に扱っているとの確信が持てなかったため、2017年初めにプロジェクトを中止した。このAIツールは女性差別だけでなく、適切でない候補者を選出することもあったとされる。

インセンティブの設計と多様な人の巻き込み
現場の利用者やプロダクトの影響・恩恵を受けるステークホルダーのニーズを把握することが重要であり、最先端の技術にとらわれず既存業務と調和したデザインを考える必要もある。

ステークホルダーのニーズ
ステークホルダーのニーズは、その組織の活動によって影響を受ける利害関係者全体を指し、これには従業員、地域団体、株主などが含まれる。新製品を開発する際には、これら異なるニーズを持つステークホルダーを考慮する必要がある。完全にこれらのニーズに応えることは難しいかもしれないが、バランスを考慮しつつ対応することが重要。

7.6 クライシス・マネジメント

キーワード
体制の整備、有事への対応、社会と対話・対応のアピール、指針の作成、議論の継続、プロジェクトの計画への反映、コーポレートガバナンス、内部統制の更新、シリアス・ゲーム、炎上対策とダイバーシティ、AI と安全保障・軍事技術、実施状況の公開、透明性レポート、よりどころとする原則や指針、Partnership on AI、運用の改善やシステムの改修、次への開発と循環

クライシス・マネジメント(危機管理)
危機的状況を避けるか、発生した場合に被害を最小限に抑えるための経営管理の一環。平常時は、危機発生のリスクを理解し、対応プランを立てておく必要がある。このプロセスには、事業戦略、リスク管理、法務、財務などの分野からの外部アドバイザーの意見を取り入れることが効果的である。危機が発生した時は、事前に準備されたプランに従って迅速かつ適切に行動し、被害を最小限に留める。情報の共有は、社内だけでなく、消費者、取引先、株主などにも慎重かつ迅速に行うべきだ。危機後は、プランの実効性を評価し、再発防止策を含む対応体制を改善する。クライシスマネジメントの目的は、危機を最小限に抑えて拡大を防ぐ「火消し」と、迅速に通常状態への回復と再発防止を目指す「復旧」にある。クライシスマネジメントはリスクマネジメントと混同されることがあるが、両者は異なる。リスクマネジメントは、事業活動中のリスクを予測し、事前に回避または最小化する対策に焦点を当てる。一方、クライシスマネジメントはすでに発生した危機への対応に重点を置く。クライシスマネジメントプランの策定には、専門チームの組織体制、リスク情報の収集、重要度に基づくクライシスの範囲の決定、対策の検討、リソースの確保などが重要となる。また、危機発生時には迅速な対応のための組織体制とクライシスコミュニケーションが必要になる。危機を最小限に抑えて拡大を防ぐ「火消し」と、速やかに平常化と再発防止を目指す「復旧」が主眼。コーポレート・ガバナンス(corporate governance)や内部統制の更新を行い体制整備(外部有識者などで構成される委員会を設置したり監査体制を強化するなど)を行っている。

コーポレートガバナンス
コーポレートガバナンスは企業経営の透明性を高め、不正行為を防止するための経営管理システムだ。企業の利害関係者間でのバランスを保ち、企業価値の向上を目指すのがその目的である。主に社外取締役や社外監査役などの社外からの管理者による監督が重要な役割を果たしている。2023年のコーポレートガバナンスの動向では、特に取締役会や指名委員会・報酬委員会の実効性の向上や独立社外取締役の質の向上が重要な課題とされている。有価証券報告書に取締役会などの活動状況を記載することが求められ、社外取締役向けの研修やトレーニングの利用が促進されている。取締役会実効性評価に関するコンプライ状況も改善しており、プライム市場上場会社の約93.5%がコンプライしている。さらに、サステナビリティや人的資本、資本政策、デジタルトランスフォーメーション(DX)への関心も高まっている。

内部統制の更新
内部統制の更新には、AI技術の進展や社会環境の変化に適応することが不可欠である。デジタル化(DX)の推進に伴い、組織や業務プロセスに大きな変化が生じ、内部統制の見直しや改善が求められている。これらの変化に対応するためには、DXの推進に伴う新たなリスクへの対応や内部統制の自動化、高度化が求められる。さらに、AIプロダクトの普及によるサービス提供者の変化や新たなビジネスモデルへの適応も重要である。これらの点を考慮し、柔軟に対応することが、今後の企業経営において重要な要素となる。

シリアス・ゲーム
単に教育や社会問題解決を目的とするテレビ・コンピュータゲームに限らず、さまざまな分野で広く利用されている。これらのゲームは、学習に代わるコストパフォーマンスの高いツールとして設計され、知識の習得や行動変容を促進する目的がある。例えば、「ガーフィールドのカウント・ミー・イン」は初等教育の生徒向けに算数の練習を支援するゲームで、「CyberSprinters」は小学生向けにサイバーセキュリティを教えるゲーム。また、シリアス・ゲームは医療分野でも注目され、信州大学の三代澤幸秀氏が開発した「ゲームで学ぼう新生児医療」は新生児医療の問題に対する認識を深めることを目的としている。その他にも、九州大学が開発した細菌学と解剖学の教育用ゲームは、医学生の学習に効果的であることが証明されている。

炎上対策とダイバーシティ
AI開発におけるダイバーシティ(多様性)の重要性と炎上リスクの回避は、現代の技術業界で特に注目されているテーマ。AIが差別的な内容を含むとされる場合、それが原因で炎上するリスクを避けるためには、開発チームが様々な価値観や人種、性別などの異なる背景を持つ人々で構成されることが推奨されている。これは、AI開発の社会的責任と倫理問題に深く根差している。ダイバーシティには、性別のステレオタイプ、年齢や世代に対する一括りの見方、外国人や特定の地域に対する誤解や偏見など、多くの側面が含まれている。これらの偏見や先入観は、AIの開発においても不適切な結果をもたらす可能性がある。さらに、デジタル化やSNSの普及により、企業や団体の行動に対する消費者の直接的な反応がより目立つようになり、炎上リスクが増加している。悪い評価はブランドイメージの低下に直結し、広範囲に拡散すると容易には収束しない傾向にある。これを避けるためには、ダイバーシティに基づく表現方法を常に考慮し、先入観やバイアスが含まれた偏った表現になっていないかを十分にチェックする必要がある。また、異なる属性を持つ人々からの多角的な意見を取り入れることも重要。

有事への対応
ソーシャルメディアなどによるクライシス発生時、初動対応前に憶測や風評被害が生じることがある。また、マスメディアが不安を煽るケースも見受けられる。その後の企業や研究機関の発信によっても、不満が生じやすく炎上する傾向があるため、クライシスの段階や規模に応じた機動的な対応が重要である。AIと安全保障・軍事技術に関する議論は、国際的なレベルでも行われている。特に、AIを利用した自律型致死兵器(Autonomous Weapons Systems、AWS)は、人間の介入なしに対象を選定し、攻撃を行うため、大きな懸念を引き起こしている。このような兵器の使用は、国際的な議論の対象となっており、国連安全保障理事会ではAIのリスク管理に関する国際的なルール作りの必要性が指摘されている​​​​。また、外務省によれば、軍事分野におけるAIの責任ある利用を推進するための政治宣言が存在し、多くの国々がこれに賛同している。なお、日本は、完全自律型の致死性を有する兵器の開発を行わないという立場を取っている。

2015年人工知能国際合同会議(IJCAI)で非営利団体The Future of Life InstituteはAWS開発の禁止を求める公式書簡を公開した
2017年国連において自律型致死兵器システム(Lethal Autonomous Weapons Systems、LAWS)の研究開発を禁止すべきだとの議論が特定通常兵器使用禁止制限条約(CCW)の枠組みで開始された。
2019年1月 日本は人間の関与しない自律兵器を開発しないという立場を表明

社会と対話・対応のアピール(実施状況の公開)
プライバシーやセキュリティの実施状況を公開を通して社会に対して対策のアピールし責任説明を果たすことが重要となるため、個人情報を扱う企業は透明性レポートなどをウェブ上などに公開し透明性を担保している。例えばTwitter社やGoogle社を始めとするいくつかの個別企業などは透明性レポート(ユーザーからの情報開示請求や削除請求、政府からのコンテンツの削除要求など)をwebで公開している。

透明性レポート
ユーザーの個人情報をどのように収集、利用、保護するかについて企業の基本的な方針を示すレポート。

よりどころとする原則や指針
AIを社会に普及させるためには、開発者や企業、政府が参考にすべき原則や指針が存在する。例として、「倫理的に調和された設計」や日本の内閣府による「人間中心のAI社会原則」が挙げられる。これらの原則や指針は、AIの社会実装において生じるさまざまな社会的、倫理的問題への対応や防止に役立つ。特に「人間中心のAI社会原則」は、人間の尊厳を重視し、AIが多様性を侵害しないよう公平性と透明性を確保すること、そしてイノベーションの推進に貢献する社会の仕組みが必要であるとされる。欧州連合では「ハイリスクAI」に関する規制案が提案されており、AIの公平性、説明可能性、追跡可能性などの観点からその適切性を第三者の立場から評価・検証するサービスも提供されている。

人間中心のAI社会原則 詳細リンク
2019年に日本の内閣府が公開したAI戦略に基づく指針は、人間の尊厳を尊重し、多様な背景を持つ人々が多様な幸せを追求できる持続可能な社会を目指す3つの基本理念と、それに基づく人間中心のAI社会原則を含んでいる。これらの原則は、産学民官のマルチステークホルダーによる広範な視点から策定され、継続的に更新されており、国際的な議論にも供されている。令和5年には人間中心のAI社会原則に関する会議が開催され、AIガバナンスに関する最新の動向が議論された。さらに、経済産業省はAI原則の実践に関するガバナンス・ガイドラインを策定し、国内外の動向を踏まえたAIガバナンスの在り方を提案している。

人間中心の原則AIは人間の能力を拡張であり、AI利用に関わる最終判断は人が行う
教育・リテラシーの原則リテラシーを育む教育環境を全ての人々に平等に提供
プライバシー確保の原則パーソナルデータの利用において、個人の自由・尊厳・平等が侵害されないこと
セキュリティ確保の原則利便性とリスクのバランス、社会の安全性と持続可能性の確保
公正競争確保の原則支配的な地位を利用した不当なデータの収集や主権の侵害があってはならない
公平性、説明責任及び透明性の原則不当な差別をされない、適切な説明の提供、AI利用等について、開かれた対話の場を持つ
イノベーションの原則データ利用環境の整備、阻害となる規制の改革

AI戦略2019(日本)詳細リンク
「人間尊重」「多様性」「持続可能」の3つの理念を掲げ、Society5.0を実現し、SDGsに貢献。
3つの理念を実装する4つの戦略目標を設定 。

戦略目標Ⅰ 人材人口比において最もAI時代に対応した人材を育成・吸引する国となり、持続的に実現する仕組みを構築。2025年には、エキスパート人材を年に2,000人育成する目標を掲げている。
戦略目標Ⅱ産業競争力 実世界産業においてAI化を促進し、世界のトップランナーの地位を確保。
戦略目標Ⅲ技術体系理念を実現するための一連の技術体系を確立し、運用するための仕組みを実現。
高校過程で2022年から「情報Ⅰ」を必修とすることを掲げている。
戦略目標Ⅳ国際国際的AI研究・教育・社会基盤ネットワークの構築。

統合イノベーション戦略2023
「統合イノベーション戦略2023」は日本政府が策定した年次計画で、科学技術とイノベーションに関連する施策を総合的に推進することを目的としている。この戦略は、「科学技術・イノベーション基本法」に基づいて策定された「第6期科学技術・イノベーション基本計画」の実行計画として位置づけられている。主な目標は、先端科学技術の戦略的な推進、知の基盤(研究力)と人材育成の強化、そしてイノベーション・エコシステムの形成に焦点を当てることだ。先端科学技術の戦略的な推進に関しては、生成AI、量子技術、フュージョンエネルギーなどの先端技術開発に注力し、社会実装を加速させることが目指されている。この分野では、経済安全保障に重要な技術の育成やムーンショット型研究開発制度を通じた技術開発が推進されている。知の基盤と人材育成の強化では、大学ファンドの支援や地域中核研究大学の振興により研究力を高めることが目指されており、多様な人材の育成やキャリアパスの拡大、国際頭脳循環の形成にも力が入れられている。具体的には、10兆円規模の大学ファンドを用いて国際卓越研究大学を支援し、研究デジタルトランスフォーメーションのプラットフォーム構築、学術ジャーナル問題への対応、理数系分野のジェンダーギャップ解消、STEAM教育の充実などが進められている。最後に、イノベーション・エコシステムの形成では、スタートアップの支援、グローバル・スタートアップ・キャンパス構想の実現、拠点都市の推進を通じてイノベーション・エコシステムを強化することが目標だ。スタートアップ育成5か年計画を策定し、先端技術分野の実証支援や政府調達の活用、アントレプレナーシップ教育を進めることで、成長志向の資金循環形成と研究開発投資の拡大に貢献している。この戦略は、国内外の状況の変化に対応し、Society 5.0の実現に向けた科学技術・イノベーション政策の推進を目的としている。

指針の作成
個人、企業、政府などが拠り所とする原則や指針が必要となる。

2015年米国政府は「A Strategy for American Innovation」を策定した。
2016年AI の研究や検証、実動におけるベストプラクティスを開発したり共有したりすることを目的として、Amazon、Google、Facebook、IBM、MicrosoftなどアメリカIT企業を中心として、PAI(Partnership on AI)が組織された。
2017年中国は「次世代人工知能発展計画」を発表した。
2017年2月NPO法人Future of Life Instituteが安全性の検証や透明性の確保など23項目からなる「アシロマAI原則」を公開。
2018年EU一般データ保護規則であるGeneral Data Protection Regulation運用開始された。
2018年欧州委員会は「Coordinated Plan on Artificial Intelligence」を発行した。
2019年4月学術団体IEEEが「倫理的に調和された設計」を公開。
2019年4月欧州委員会が「信頼性を備えたAIのための倫理ガイドライン」を公開。
2019年5月中国が「北京AI原則」を公開。
2019年5月日本内閣府が「人間中心のAI社会原則」を公開。
2020年2月欧州委員会が「AI白書」(AIの規制の枠組みの方向性)を公開。
2020年1月アメリカ政府が「民間部門におけるAI技術の10項目の原則」を公開。
2020年1月シンガポールが第2版となる「Model Artificial intelligence Governance Framework」を公表
2021年4月欧州委員会がAIに関する規制枠組み法案や開発促進策などの政策パッケージを発表
2022年10月米国ホワイトハウスの科学技術政策局が「AI権利章典のための青写真」を発表
2022年11月中国がジュネーブで「AI(人工知能)倫理ガバナンスの強化に関する中国の立場文書」を提出
2023年6月欧州連合(EU)が「AI規則案」を採択

Partnership on AI
Partnership on AIはFacebook、Amazon、Google、IBM、Microsoftの五社によって2016年に設立された非営利組織。この組織の主な目的はAI技術の実世界への応用方法の開発と共有、AIの透明性、プライバシー、倫理に関する懸念事項の議論や啓蒙活動を行うこと。2023年現在、Partnership on AIは114のパートナー組織を持ち、法律、メディア、テクノロジーの分野、ブラジルやアフリカの市民社会からの視点を含んでいる。AI、労働、経済プログラムや、公正性、透明性、説明責任プログラム、安全クリティカルAIプログラムなどのイニシアティブを通じて、AI技術の責任ある使用に関する指針を提供し、AIのリスクを軽減するための多様なステークホルダーの協力を促進している。

プロジェクトの計画への反映(運用の改善やシステムの改修、次への開発と循環)
AIシステムは作ったら終わりではなく、得た教訓を運用の改善やシステムの改修や次の開発へと循環させていくサイクルが重要となる。想定外の事故を起こさなためにも、「このAIシステムで支援や影響を受けるのは誰か」、「想定外のユーザーはいないか」、「判断や最適化を行う時の基準は何か」、「判断や最適化などを機械で行うことの正当性はどんな根拠に基づいているのか」、「AIシステムやサービスを、現在の文脈以外に悪用される危険性はあるか、それを防ぐ対策は取られているか」といった点に留意する。

8. 数理・統計

キーワード
統計検定3級程度の基礎的な知識、統計検定3級程度の基礎的キーワードと計算問題

参考:統計検定3級のキーワード
量的変数、質的変数、名義尺度、順序尺度、間隔尺度、比例尺度
母集団、標本、全数調査、無作為抽出、標本の大きさ、乱数表、国勢調査
実験研究、観察研究、処理群と対照群
棒グラフ、折れ線グラフ、円グラフ、帯グラフ、積み上げ棒グラフ、レーダーチャート、バブルチャート、ローソク足
モザイク図、散布図(相関図)、複合グラフ
度数分布表、度数、相対度数、累積度数、累積相対度数、階級、階級値、度数分布表からの統計量の求め方
クロス集計表(2元の度数分布表)
時系列グラフ、指数(指標)、移動平均
平均値、中央値、最頻値
最小値、最大値、範囲、四分位数、四分位範囲、分散、標準偏差、偏差値、変動係数
共分散、相関係数
ヒストグラム(柱状グラフ)、累積相対度数グラフ、幹葉図、箱ひげ図、はずれ値
相関、擬相関、因果関係
最小二乗法、回帰係数、予測
独立な試行、条件付き確率
二項分布、正規分布、二項分布の正規近似
標本平均・比率の標本分布、母平均・母比率の区間推定、母平均・母比率の仮説検定

量的変数、質的変数
量的変数:数値で表されるデータを指し、身長や体重、テストの点数、年収などがこれに該当する。これらの変数は数値で測定可能であり、離散型変数と連続型変数の二つの形態を取る。離散型変数はサイコロの目のように個別の値を取り、連続型変数は時間や温度のように連続的な値を取る。量的変数の中には間隔尺度と比例尺度が存在する。間隔尺度は「0」に特別な意味がない数値データで、温度や西暦が該当し、比例尺度は「0=ない」という意味を持つデータで、身長や体重がこれに含まれる。

質的変数:数値では表せないデータを指す。性別や血液型などのカテゴリデータや属性データがこれに当てはまる。質的変数は名義尺度と順序尺度に分けられ、名義尺度は単にカテゴリを表すデータ、順序尺度はランキングのように順序関係があるが数値の差に意味はないデータとなる。

名義尺度、順序尺度
名義尺度:データを区別し分類するために使われる。この尺度によってデータはカテゴリに分けられ、各カテゴリは互いに排他的である。例として男女、血液型、郵便番号、住所、本籍地などがある。名義尺度を使うと、データの数や頻度、最頻値などの統計量の利用が可能になる。

順序尺度:データ間の順序や大小には意味があるが、その間隔には意味がない尺度。順序尺度ではデータをランク付けし、例えば1位、2位、3位とするが、これらの値間に数値的な差はない。つまり、1位と2位の間と、2位と3位の間が同じだとは限らない。使える統計量には中央値やパーセンタイルが含まれる。

間隔尺度、比例尺度
間隔尺度:数値間の間隔に意味がある変数を指す。例えば、気温は間隔尺度の一つだ。気温が30度から31度に上がるとき、その1度の差には意味がある。しかし、気温が15度から30度になる場合、気温が2倍になったわけではない。テストの点数も間隔尺度の一例である。

比例尺度:0が原点を表し、数値間の間隔と比にも意味がある変数を指す。例えば、身長が150cmから180cmになる場合、30cmの差があり、1.2倍になる。身長が0cmの場合は「身長がない(存在しない)」を意味し、0は絶対的な意味を持つ。比例尺度の例には身長、体重、年齢などが含まれる。

母集団、標本、標本の大きさ
母集団は特定の調査や研究で興味の対象となる全集団を指す。例えば、日本に住む女性全体が母集団に当たる。しかし、広範な母集団から全てのデータを集めることは現実的でないため、一部のデータを取り出して分析する。この取り出された一部を標本と呼ぶ。標本は母集団の特性を代表するものとして選ばれ、母集団全体の特性を推定するために用いられる。標本の大きさ、つまりサンプルサイズは、標本に含まれる要素の数を指す。この数は研究の目的や母集団の大きさ、必要な精度などに基づいて決定される。例えば、100人の大学生からデータを集めた場合、標本の大きさは100となる。標本の大きさは統計的な分析の信頼性に直接影響を与える重要な要素だ。標本の大きさが大きければ大きいほど、推定値の精度が向上する傾向がある。

無作為抽出
無作為抽出は、母集団全体の特徴を忠実に反映するためのサンプリング手法。この方法では、母集団のすべての要素が等しい確率で選ばれることが重要だ。例えば、市場をセグメントに分割し、性別や年齢層、所得、地域、職業などのさまざまな要因を考慮して標本調査を行う。これにより、調査結果が母集団の特性を正確に反映できるようになる。

乱数表
乱数表は、0~9までの数字が不規則に並べられた表で、上下左右や斜めのいずれの方向から見ても、どの数字も同じ確率で現れるように設計されている。乱数表は、母集団に通し番号をつけた後、ランダムに番号を選び、該当する要素を標本として抽出する際に使用される。ただし、乱数表の一部を抽出した場合、均等に数字が出現するとは限らない点に注意が必要。

全数調査
全数調査は、対象となる母集団全体を調査する方法。例えば国勢調査は、全数調査の代表例である。この方法では、例えば全校生徒の平均身長を割り出す場合、全校生徒の身長データを収集する必要がある。その特徴は、母集団の構造特性がつかみやすく、詳細かつ正確な調査結果を得られる点にある。しかし、対象者全員に調査を行うため、労力・時間・コストが多くかかるデメリットもある。

国勢調査
標本調査は母集団から一定数の標本を抽出して行う調査方法。例えば、全校生徒の中から選出された生徒の身長を元に全体の平均を算出する場合がある。標本調査のメリットは、全数調査に比べて簡便であることだが、標本誤差が生じる可能性がある。標本誤差とは、選出した対象者によって調査結果と実態との間に生じる食い違いを指す。標本調査の際には、このような誤差を考慮する必要がある。標本調査では、無作為に抽出することが重要だが、これは簡単なようで実は難しい。例えば、内閣支持率の調査では、固定電話の番号に無作為にかけて調査する手法が用いられていたが、携帯電話の普及により、若者など特定の層の声が反映されていない可能性があったため、現在は携帯電話も対象に含まれている。標本調査の際は、偏りが少ないように標本を抽出することが大切。

実験研究、観察研究
実験研究と観察研究の選択は、研究の目的や調査対象に応じて異なる。因果関係を明確にする必要がある場合は実験研究が、既存のデータを分析して変数間の関係を調べる場合は観察研究が適している。どちらの方法も、正確な結果を得るために適切な方法を選択し、データの収集や分析を正確に行う必要がある。
実験研究:研究者が対象に何らかの介入(例えば、新薬の投薬、新しい肥料の施肥、新製品の試用など)を行い、その効果を検証するための研究デザインだ。この方法では、研究者が条件を制御し、外部要因の影響を最小限に抑えることができる。実験研究は、因果関係を明確にすることが可能。
観察研究:研究対象に対して研究者が介入せずに、観察によってデータを集めて解析を行う研究デザイン。例えば、国公立大学と私立大学の進学者の比較や、飲酒歴のある患者の調査などがこれに該当する。観察研究では、研究者が条件を制御することができないため、外部要因の影響を考慮する必要がある。

処理群と対照群
処理群と対照群は、2標本検定で重要な役割を果たす。2標本検定は、2つの母集団の平均の差を検定する方法だ。この検定で、2つのグループのデータを使って検定を行う。例えば、ある教育方法の効果を評価するとき、新しい教育方法を適用したグループが処理群、従来の教育方法を適用したグループが対照群になる。2群間の比較分析で、処理群と対照群のデータを比較し、要約統計量(平均値、中央値、標準偏差など)を算出する。連続量のデータにはヒストグラムや箱ひげ図を作成し、カテゴリカルデータには分割表や棒グラフを作成する。

棒グラフ、折れ線グラフ、円グラフ、帯グラフ
棒グラフ:棒グラフは各項目間の数値的な差異を視覚的に比較するのに適している。棒の高さにより、項目の値の大小を明確に示すことができる。
折れ線グラフ:時系列データや連続する数値の変化を表すのに適している。時間の経過に伴うデータの推移や変化の傾向を、線の動きで容易に捉えることができる。
円グラフ:全体における各項目の割合を表すのに用いられる。円周を100%として、その中で各部分が占める割合をセクションごとに示し、構成比を視覚的に表現する。
帯グラフ:帯グラフは円グラフと同様に項目の構成比を表すが、特に時間の経過とともに構成比の変化を捉えるのに有効である。帯全体を100%と見立てて、項目の構成比を長方形の面積で示す。

積み上げ棒グラフ、レーダーチャート、バブルチャート、ローソク足
積み上げ棒グラフ:積み上げ棒グラフは累積データの内訳を比較するのに適したグラフだ。100%積み上げ棒グラフは、それぞれの項目を100%として割合を把握できる形式で、帯グラフに似ているが、複数の構成比を並べて比較できる点が特徴だ。
レーダーチャート:レーダーチャートは、複数の指標をまとめて確認するのに適している。中心から放射状に伸びる軸に沿って各指標の値をプロットし、これらを線や領域で結んで表示する。特に複数の項目を同時に比較したい場合に有用だ。
バブルチャート:バブルチャートは、縦軸、横軸、そしてバブル(点)のサイズで3種類のデータを表現するチャートだ。各バブルのサイズは第三のデータ次元を表し、相関関係を視覚的に把握するのに役立つ。ただし、バブルが多いと視認性が低下することもある。
ローソク足:ローソク足チャートは金融市場でよく用いられ、株価の値動き(始値、終値、高値、安値)を1本のローソクの形で表現する。陽線(始値より終値が高い)と陰線(始値より終値が安い)を区別して表示し、1日の取引時間中の価格変動を捉えるのに適している。

モザイク図、散布図(相関図)、複合グラフ
モザイク図:カテゴリ変数間の関係を視覚的に示すグラフだ。例えば、異なる治療群間での高齢者の割合を比較する際に使われる。各セルの面積は、そのカテゴリ内の観測値の数に比例し、2つ以上の変数の関連性を示すことも可能だ​​。
散布図:2つの量的変数間の関係を点で表す。たとえば、都道府県内の森林面積割合と人口100万人あたりの博物館数の関係を示すのに使われる。このグラフは変数間の関連性を視覚的に捉えるのに役立つ​​。
複合グラフ:異なる種類のグラフを組み合わせたものだ。例として、棒グラフと折れ線グラフを組み合わせ、異なるタイプのデータを同時に表示することができる。これにより、データの比較や相関関係の分析がより詳細に行える。

度数分布表、度数
度数分布表とは、データを階級に分け、各階級に属するデータの数(度数)を記録した表。この表を用いることで、データの分布の傾向や特徴を簡単に把握することが可能となる。具体的には、度数分布表を見ることで、どの階級にデータが多く集中しているか、またデータの分布がどのような形をしているかを理解できる。度数分布表の作成には、データを階級に分ける際の区間の幅や数を決める必要があり、これにはスタージェスの公式などが用いられることが一般的。度数分布表は、中央値や平均値を視覚的に確認するのにも役立つ。中央値は、データを小さい順に並べたときに、中央に位置するデータの値であり、度数分布表を利用して、どの階級に中央値が含まれるかを確認できる。一方で、平均値は階級値と度数を用いて計算され、度数分布表のデータから近似値を求めることができる。度数分布表のもう一つの重要な活用法はヒストグラムの作成である。ヒストグラムは度数分布表を柱状のグラフで表したもので、データの分布をより直感的に理解するのに適している。

相対度数、累積度数、累積相対度数
相対度数: これは特定の階級にあるデータの数を全データの数で割ったもので、データの割合を表す。たとえば、ある階級にデータが15個あり、全データが50個の場合、その階級の相対度数は15/50、つまり0.3になる。相対度数は異なる度数分布表を比較する際に有効である。例えば、クラスAとクラスBのテスト得点の度数分布表を比較する場合、相対度数を用いることで、全体に占める割合で各階級を比較することができる​​​​。
累積度数: 特定の階級までに含まれるデータの総数である。例えば、ある階級までの累積度数が40であれば、その階級を含む下位の階級にあるデータの総数は40となる。累積度数は、特定の階級以下のデータを合計することで求められる​​。
累積相対度数: 特定の階級までにあるデータの割合を表す。これはその階級までの累積度数をデータ全体の数で割ることで求められる。例えば、ある階級までの累積度数が20で、データ全体が50個の場合、累積相対度数は20/50、つまり0.4になる。累積相対度数は、複数の階級にわたるデータの割合を把握するのに有効である。例えば、60点以下の生徒の割合や、40点以上の生徒の割合など、特定の範囲に関する情報を得る際に役立つ​​​​。

階級、階級値
階級とは、データを特定の区間に分けたものを指す。例えば、国語の点数を10点刻みで区分けする場合、「20 ≦ x < 30」や「30 ≦ x < 40」といった形でデータを階級に分類する。階級値とは、その階級を代表する値のことで、通常は階級の中央値を用いる。たとえば、階級「20 ≦ x < 30」の階級値は25、階級「30 ≦ x < 40」の階級値は35となる。この階級値は、階級の最大値と最小値の平均で求められる​​。また、階級値の計算には、データの集計や分析における近似的な平均値の推定として用いられる。実際の平均値と階級値による推定値との間には誤差が存在することがあるが、階級値を用いることでデータの分布や傾向を把握する上で役立つ。たとえば、お菓子屋さんの商品価格を度数分布表で分析する際、階級値を用いることで、価格の偏りがあってもそれをうまく表現できる​​。ヒストグラム作成時には、階級値と度数(階級に含まれるデータの個数)が重要となる。ヒストグラムは、横軸に階級を、縦軸に度数を取り、各階級に属するデータの度数を長方形のグラフで表す。この際、各階級の中心に度数の値をプロットしていき、階級の幅や度数に基づいて長方形を描いていく。

度数分布表からの統計量の求め方

手順説明
階級ごとの度数を調べるデータを階級ごとに分類し、各階級の度数を数える。階級の幅はあらかじめ決められ、データの範囲に基づいて階級を設定する。
度数分布表の作成階級と度数から表を作成する。表には、各階級とそれに対応する度数、さらに度数の合計が含まれる。
統計量の計算以下の統計量を計算する:
平均値:階級値×度数の和をデータの総数で割る。
中央値:累積相対度数が0.5を超える階級の階級値。
最頻値:度数が最も多い階級の階級値。
標準偏差:各階級の中央値を用いて偏差平方和を求め、これをデータの数で割り、平方根を取る。
ヒストグラムの作成度数分布表からヒストグラムを作図する。ヒストグラムは、階級を横軸に、度数を縦軸に取り、各階級の度数を長方形のグラフで表す。

クロス集計表
クロス集計表、または2元の度数分布表とは、2つのカテゴリーに属するデータをそれぞれのカテゴリーで同時に分類し、その度数を集計した表である。この表は、異なる変数間の関連性を視覚的に理解しやすくするために使用される。たとえば、性別と好きなスポーツという2つのカテゴリーに基づいてクロス集計表を作成することができる​​。クロス集計表の作成では、一般的に行には原因やグループを配置し、列には結果を配置する。表の各セルには、対応する組み合わせの度数(出現回数)が記入される。また、それぞれの行と列には合計値が記載され、表全体の総合計は全標本数に相当する。この表は、度数の集計にとどまらず、割合の計算や比較も可能にする。特定の行または列の合計に対する各セルの度数の割合を計算することで、より詳細な分析が可能となる。また、クロス集計表から導出された割合の差を検定することで、その差が偶然によるものかどうかを統計的に判断することができる。このような検定にはカイ二乗検定やフィッシャーの正確検定などが使用される。

時系列グラフ、移動平均
時系列グラフ:時系列データとは時間の経過と共に収集されたデータであり、これらのデータを分析することを時系列分析と呼ぶ。時系列データの分析は、変動するデータの傾向を理解し、将来の予測に役立てることが目的である。この分析において、時系列グラフは非常に重要な役割を果たす。時系列グラフは、時間の経過に伴うデータの変化を視覚的に示し、傾向やパターンを識別するのに役立つ。たとえば、気温や株価などのデータは、時系列グラフを用いて時間による変動を観察できる。移動平均:時系列データにおける短期間の変動を滑らかにし、長期的な傾向をより明確にする手法である。これは、特定の期間にわたるデータポイントの平均を計算し、それを繰り返して得られる一連の平均値をプロットすることで構成される。移動平均は、季節変動や不規則変動など、短期的な変動を平滑化して、データの長期的な傾向を示すのに有用である。たとえば、1年間の月別の気温データに12ヶ月の移動平均を適用すると、季節変動の影響を排除し、年間を通じた気温の傾向を捉えることができる。

平均値、中央値、最頻値
平均値:全てのデータを合計し、データの数で割ることで算出される。平均値はデータ全体の「平均的な」値を提供するが、外れ値の影響を受けやすい。例えば、10世帯の平均貯蓄額は、1つの高額な貯蓄があると平均が歪む可能性がある。
中央値:データを小さい順に並べた際の真ん中に位置する値。偶数個のデータがある場合は、中央に最も近い2つの値の平均を中央値とする。中央値は外れ値の影響を受けにくく、データの「中心」をより適切に示すことが多い。例えば、10世帯の中央貯蓄額は、2億円という極端な値があっても550万円となり、平均値よりも実態をよく反映する。
最頻値:データセット内で最も頻繁に現れる値。例えば、貯蓄額のデータセットにおいて、もっとも多いのは100万円未満の世帯であることから、最頻値は「0円~100万円」となる。最頻値は外れ値の影響を受けにくいが、複数の値が同じ頻度で現れる場合、複数の最頻値を持つことがある。

最小値、最大値、四分位数、四分位範囲
最小値と最大値:データセット内でそれぞれ最も小さい値と最も大きい値を示す。これらの値を用いて、データの範囲を求めることができる。データの範囲は、最大値と最小値の差によって計算され、データがどのくらい広がっているかを示す指標となる。
四分位数:データセットを四等分したときのそれぞれの分割点を指す。具体的には、第1四分位数(Q1)、第2四分位数(Q2、つまり中央値)、第3四分位数(Q3)がある。これらはデータの分布の特徴を捉えるのに有用であり、特にデータの中央部分をより詳細に理解するのに役立つ。
四分位範囲:第1四分位数(Q1)と第3四分位数(Q3)の差で求められ、データの中央50%の広がりを示す。この範囲が大きい場合、データには大きなばらつきがあることを意味し、小さい場合はデータが密集していることを示す。

分散、標準偏差、偏差値
分散:データのばらつきを示す指標で、データの平均からのズレ(偏差)の二乗の平均値で求められる。分散はデータの散らばり具合を数値化したもので、値が小さいほどばらつきが少ないことを意味する。分散の単位は元のデータの単位の二乗になる​​​​。
標準偏差:分散の平方根として定義される。標準偏差はデータのばらつきを元の単位で表すため、分散より直感的に理解しやすい。標準偏差も小さいほどデータのばらつきが少ないと解釈される​​​​。
差値:データを標準化した値で、個々のデータが全体の中でどの位置にあるかを示す。具体的には、元のデータから平均値を引いた値を標準偏差で割り、その結果に10を乗じて50を加えることで計算される。偏差値は50が平均で、高いほど平均より上、低いほど平均より下を示す。偏差値は異なるグループ間のデータを比較する際に役立つ​​。

共分散
2つの異なるデータの関連性を探る統計学的なツールで、正の相関、負の相関をデータ値の変化の仕方を通じて発見することができる。正の共分散は2組のデータが正の相関を持つことを示し、一方が増えるともう一方も増える傾向にある。逆に、負の共分散は2組のデータが負の相関を持ち、一方が増えるともう一方が減る関係にある。ただし、共分散の値が小さい場合、2つのデータ間の関連性を判断するのが難しい場合もある。

相関係数
共分散の欠点を解消するために用いられ、共分散を各変数の標準偏差で割ったものである。相関係数は-1から+1の範囲で、+1に近い値は正の関連性を、-1に近い値は負の関連性を、0の場合は関連性がないことを示す。この相関係数によって、データの数値の大きさや単位の影響を排除し、2つのデータ間の相関の強さを統一的に判断できるようになる。

ヒストグラム
ヒストグラムはある幅にどれくらいのデータ数があるかを可視化したい場合に使用する。おおよそ、だいたい、といった正確でなく大まかな傾向を知るために使う。ヒストグラムの作成には以下のステップが含まれる。

  1. 階級の幅を決め、データを階級ごとに区分する。
  2. 各階級に属するデータ数(度数)を集計し、度数分布表を作成する。
  3. 横軸に階級、縦軸に度数をとり、階級ごとの長方形(棒)を描く。

ヒストグラムの特徴は、横軸が連続データであるため、棒の間に隙間がないことである。これにより、データの分布状況をより正確に反映する。ヒストグラムからは、データの平均値、中央値、最頻値などの代表値を求めることが可能である。例えば、平均値は各階級の階級値と度数をかけ合わせたものの合計を、度数の合計で割ることで求められる。ヒストグラムは、製品の品質管理やプロセスの改善、サンプリング戦略の決定など、多様な応用が可能である。また、度数折れ線や箱ひげ図など、他の可視化ツールと組み合わせて使用することで、データの理解をより深めることができる。

対度数グラフ
対度数グラフは、特に量的データの分布を示すのに適している。このグラフでは、データが取る値(度数)を軸に沿って並べ、それぞれの値の出現頻度を高さとして示す。これにより、データの分布、中心傾向、散らばりの度合いなどが視覚的に理解しやすくなる。

幹葉図
幹葉図は「幹」と「葉」から構成され、データの分布を可視化しながら個々の観測値も示すことができる。この図の作成方法は、データの数値を幹(通常は上位の桁)と葉(通常は下位の桁)に分けて表現する。たとえば、10の位が幹で1の位が葉である場合、27, 30, 33, 37などの数値からなるデータセットは次のような幹葉図になる。
①幹2に対して葉7、②幹3に対して葉0, 3, 3, 7、③そして以降同様に続く
この方法でデータを整理することにより、データの分布が視覚的に捉えやすくなる。幹葉図は特にデータの分布形を掴みやすく、また個々のデータも詳細に知ることができる。ただし、幹葉図はデータ点が適度な桁数(約150個程度まで)でなければならず、データ点が多すぎると作成の負担や見栄えに問題が出る。また、データが小さすぎたり大きすぎたりする場合には、幹葉図は適切ではなくなる。したがって、幹葉図を使う際はデータの選択が重要である。

箱ひげ図
箱ひげ図は、データの分布とばらつきを視覚的に表現するためのグラフである。このグラフには、最大値、最小値、および四分位数(第一四分位数、中央値、第三四分位数)の情報が含まれる。四分位数は、データを小さい順に並べたときに、25%、50%、75%の位置にある値を指す。このうち、中央値はデータの中央に位置する値であり、平均値とは異なる場合がある。箱ひげ図の箱部分は、第一四分位数と第三四分位数の間に位置し、この区間にはデータの中央の50%が含まれる。箱の中の線は中央値を示す。箱の外側に伸びる線、すなわち「ひげ」は、最大値と最小値を表し、データの全範囲を示す。ただし、外れ値がある場合、ひげの端は最大値や最小値ではなく、四分位範囲(IQR)の1.5倍の範囲内に収まる値になることが多い。外れ値は、ひげの範囲外に位置する値として特別にマークされる。箱ひげ図は、特に複数のデータセットのばらつきを比較する際に有用である。例えば、異なるグループのデータセットを並べて表示することで、各グループ間のデータ分布の違いを容易に視覚化できる。

はずれ値
外れ値とは、得られた観測値の中で真の値の推定値からの残差が異常に大きい値のことを指す。また、測定ミスや記入ミスなど原因が明らかな場合、これらを「異常値」と称することもある。例えば、性別を0と1で入力するアンケートで「2」が入力された場合、この「2」は異常値と見なされる。外れ値の探索方法には、主に以下のものがある。まず、箱ひげ図を描いた際、ひげの範囲外に位置する値は外れ値とみなされる。次に、外れ値検定として「スミルノフ=グラブス検定」があり、これは平均値から最も遠い値を検定し、外れ値かどうかを判断する。また、クラスター分析を行い、データが1つだけのクラスターを形成する場合、そのデータは他のデータからかけ離れている可能性が高い。外れ値の存在は分析結果に影響を与え得るため、慎重に判断する必要がある。外れ値を見つけた場合、目的に応じて除外したり、データを変換(例えば対数変換)することがある。

相関、擬相関、因果関係
相関:二つの変数間の関連性を示す統計的な指標である。相関があるとは、一方の変数が変化すると、もう一方の変数も一定の傾向で変化することを意味する。例えば、学生の勉強時間と試験の成績には正の相関がある可能性がある。つまり、勉強時間が長いほど試験の成績が良くなる傾向にある​。
擬似相関:二つの変数間に相関関係が見られるが、それが偶然に起こるか、あるいは別の未知の変数(潜伏変数)の影響によるもので、本当の因果関係は存在しない場合を指す。例えば、アイスクリームの売り上げと溺死事故の件数には相関関係があるように見えるが、これは高温である夏という共通の原因が背景にある。このような場合、アイスクリームの売り上げと溺死事故との間に真の因果関係はない。
因果関係:
一つの事象が別の事象を引き起こす関係を意味する。これは相関関係とは異なり、単に二つの変数が関連しているだけでなく、一方が他方に影響を与えることを示す。因果関係の確立には、単に相関を示すだけでは不十分で、追加的な証拠や分析が必要である。

最小二乗法
この手法の目的は、データの集合に最もよく適合する直線を見つけることである。これは、誤差の二乗の和を最小化することによって達成される。最小二乗法は、異なる二つの変数間の関係を数式化し、予測や因果関係を発見するために用いられる。最小二乗法において、回帰直線の傾きと切片は特定の公式に従って計算される。この手法では、まず各変数の平均値を計算し、次に各データポイントの偏差(実際の値から平均値を引いたもの)を求める。その後、これらの偏差を使用して変数の分散と共分散を計算し、これらを用いて回帰直線の傾きを導出する。最後に、この傾きと変数の平均値を用いて回帰直線の切片を求める。

回帰係数
単回帰分析や重回帰分析におけるモデルのパラメータとして機能する。単回帰分析では、回帰係数は説明変数と目的変数との線形関係を示す。真の回帰式は一般に未知であるため、観測データを用いて推定値を計算する。この推定は最小二乗法を用いて行われる。最小二乗法では、残差(観測値と回帰式による予測値の差)の二乗和が最小となるように、回帰係数を決定する。結果として得られる推定値は、偏回帰係数と呼ばれ、回帰式における説明変数の影響を表す。回帰係数の有意性は、F検定やt検定を用いて評価される。F検定は、回帰モデル全体が統計的に有意かどうかを検定し、t検定は個々の回帰係数が0でないことを検定する。t検定では、帰無仮説(回帰係数が0である)が棄却されるかどうかを評価する。計算されたt値が指定された有意水準のt値より大きい場合、帰無仮説は棄却される。

独立な試行
独立な試行とは、統計学において重要な概念であり、二つ以上の試行が互いに影響を及ぼさない状況を指す。例えば、コインを投げる試行とサイコロを振る試行は、それぞれの結果が他方に影響を与えないため、独立な試行と考えられる。独立な試行の特徴として、一つの試行の結果が他の試行の確率に影響を与えないことが挙げられる。これは、独立な試行の確率を計算する際に非常に重要な要素である。例えば、二回連続でコインを投げる場合、最初の投げにおいて表が出る確率と裏が出る確率はそれぞれ1/2であり、二回目の投げにおいても同様である。ここで重要なのは、最初の投げの結果が二回目の投げの結果に影響を与えないという点である。

条件付き確率
条件付き確率は、ある事象Aが起こったという条件の下で、別の事象Bが起こる確率を指す。この確率は、次の式で表される。
P(B | A) = P(A ∩ B) / P(A)
ここで、P(A ∩ B)は事象AとBが同時に起こる確率を、P(A)は事象Aが起こる確率を意味する。例を挙げると、袋の中に赤い玉と白い玉が混ざっていて、いくつかの赤い玉には「1」と書かれているとする。ここで、赤い玉が取り出されるという条件の下で、その玉に「1」と書かれている確率を求める。この場合、赤い玉が取り出される確率と、赤い玉で「1」と書かれた玉が取り出される確率をまず計算する必要がある。例えば、袋の中に合計6個の玉があり、そのうち赤い玉が3個、白い玉が3個で、赤い玉のうち2個に「1」と書かれているとする。赤い玉が取り出される確率は3/6、赤い玉で「1」と書かれた玉が取り出される確率は2/6である。したがって、赤い玉が取り出されたという条件の下で「1」と書かれた玉が取り出される確率は以下のように計算される。
P(1と書かれた赤い玉 | 赤い玉) = P(赤い玉で「1」と書かれた玉) / P(赤い玉) = (2/6) / (3/6) = 2/3

二項分布、正規分布、二項分布の正規近似
二項分布:独立なベルヌーイ試行をn回行ったときに成功する回数が従う確率分布である。例えば、「コインを投げて表が出る回数」や「サイコロを投げて特定の目が出る回数」など、結果が「成功」か「失敗」のいずれかになる試行を複数回行った際に用いられる。二項分布の確率は、組み合わせと成功確率を用いて計算されるが、試行回数が大きくなると計算が複雑になる。
正規分布:自然界や社会現象でよく見られる連続型の確率分布で、その形は左右対称のベル型をしている。正規分布は多くの場面で用いられ、様々な確率変数の分布を近似するのに適している。
二項分布の正規近似:試行回数nが大きくなると二項分布が正規分布で近似できるという性質に基づいている。nが十分に大きい場合、二項分布の形は正規分布に近似されるため、複雑な二項分布の計算を簡易化できる。これは中心極限定理の一部であり、特にド・モアブル-ラプラスの定理として知られている。例えば、コインを200回投げた場合など、nが大きい場合に二項分布の計算を正規分布で近似することが可能になる。

標本平均・比率の標本分布
標本平均:ある母集団から抽出された標本の値の平均である。これは母集団平均の推定値として利用される。例えば、ある都市の住民の平均年収を知りたい場合、全住民のデータを集めるのは非現実的であるため、ランダムに選んだ一部の住民の年収データを使って平均を計算する。この計算された平均が標本平均である。標本平均の重要な性質として、標本サイズが大きくなるにつれて、その平均は母平均に近づく傾向にある。
比率の標本分布:特定の属性を持つ母集団の割合を推定するために用いられる。例えば、ある大学における女性学生の割合を知りたい場合、全学生を調査する代わりにランダムに選んだ標本群を調査し、その中の女性学生の割合を計算する。この割合が比率の標本分布である。

母平均・母比率の区間推定
母平均の区間推定:無作為に抽出された標本を用いて母集団の平均を推定する手法である。母分散がわかっている場合とわかっていない場合で異なるアプローチが必要となる。母分散が既知の場合、母平均の信頼度95%の信頼区間は標本平均±1.96×(母標準偏差/√n)で求められる。母分散が未知の場合、t分布を用いて信頼区間を求める。t分布は自由度に依存し、標本の大きさによって異なる形状をとる。自由度は標本サイズから1を引いた値で表され、母平均の信頼区間は標本平均±(t値×標本標準誤差)で計算される。
母比率の区間推定:特定の特性を持つ母集団から抽出された標本を用いて母比率を推定する手法である。標本比率を用いて計算され、大標本においては標本比率から母比率を推定する公式は以下の通りである:母比率の95%信頼区間は、標本比率±1.96×√(標本比率×(1-標本比率)/n)で求められる。ここで、1.96は標準正規分布において信頼度95%に相当するZ値である。母比率の信頼区間を求める際には、サンプルサイズが大きい場合にこの近似が適用される。

母平均・母比率の仮説検定
母比率の仮説検定:サンプルデータを用いて母集団の比率に関する仮説を統計学的に検証する方法である。例えば、12,000回サイコロを投げたときに1が2,200回出た場合、サイコロが等しく出るかどうかを確かめることができる。このとき、帰無仮説は「サイコロの1が出る確率は1/6」であり、対立仮説は「サイコロの1が出る確率は1/6ではない」となる。有意水準を0.05(5%)と設定し、検定統計量を求め、両側検定を行う。この結果、帰無仮説を棄却し、対立仮説を採択することで「サイコロは1の出やすさに関して歪んでいる」と結論づけることができる。
母平均の仮説検定:これは母集団の平均値に関する仮説を検証する方法であり、検定統計量としてZ値またはt値を用いる。例えば、クラスの試験結果の平均点が過去の平均点を上回るかどうかを検証する場合、検定統計量を計算し、有意水準を設定して帰無仮説を検討する。また、母標準偏差が未知の場合、標本数が30以上であれば中心極限定理により正規分布に従うと見なし、標本の不偏分散の平方根を母標準偏差の代わりに用いてz検定を行う。標本数が30未満の場合はt分布を用いてt検定を行う

9. 最新技術・時事ネタ

大規模言語モデル (Large Language Models、LLM)

大規模言語モデル (Large Language Models、LLM)における確率モデル
機械学習モデルは人間の言語使用のパターンを学ぶために設計されている。このモデルの核心的な原理は、テキストデータを確率的な観点から解釈することである。確率モデルの働きとその動作の詳細を把握することにより、LLMがどのように言語を「理解」し、「生成」するのかを深く理解することができる。LLMは、基本的には単語やフレーズの出現のパターンを学び、それを基にして新しいテキストを生成する。これは、確率モデルを用いて実行される。確率モデルは、データ内のパターンを把握し、それを用いて未知の事象の予測を行うツールである。この場合、事象はテキスト中の次の単語やフレーズの出現であり、予測は既存のテキストデータを基にして行われる。LLMの一つの重要な形態は、トランスフォーマーベースのモデルで、その代表例としてOpenAIのGPT-3やGPT-4がある。これらのモデルは「自己回帰」の特性を有している。すなわち、あるシーケンスの次の要素を予測するために、それまでのシーケンスが利用される。自己回帰モデルは、過去のデータを用いて未来を予測する。たとえば、「彼はコーヒーを飲むのが__」というフレーズが与えられれば、自己回帰モデルは次の単語を予測する。確率的な観点から言えば、モデルは「好き」、「嫌い」、「慣れている」などの可能な単語すべてに確率を割り当て、最も確率の高い単語を出力する。その出力は、モデルが訓練中に接触した大量のテキストデータ(インターネット上の書籍、ウェブサイト、記事等)から学習したパターンに基づいている。このような学習プロセスを通じて、LLMは文脈や一般的な知識、さまざまな話題に関する情報など、人間の言語の多様な特性を捉えることができる。確率モデルを利用することは、LLMが不確実性を扱い、新しい情報を生成する基本的な手段である。これによって、これらのモデルは人間の言語を驚くべき精度で模倣し、ある程度のコンテキストに基づいた意味のある予測を実行することができる。

ハルシネーション
ハルシネーション(AIの幻覚)とは、AIが訓練データに基づき正当化できない情報を信じ込む結果として、生成AIが不正確または不適切な回答を生成する現象である。具体的には、AIが訓練データに基づいて正当化できない数値(例:テスラの収益が136億ドル)を伝えることがある。この現象は、人間の心理学におけるハルシネーション現象に類似しているとされ、これを基に”ハルシネーション”と名付けられている。人間のハルシネーションが感覚的な偽の知覚に関連しているのに対して、AIのハルシネーションは不正確または不適切な回答や信念と関連している。2022年頃から、大規模な言語モデル(Large Language Models、LLM)の登場に伴い、AIのハルシネーションは注目を集めるようになった。ユーザーからは、これらのAIが信頼できるように見えるが実は虚偽の情報を生成する傾向があるという不満が寄せられている。ハルシネーションの原因は主に、データからのハルシネーションと訓練からのハルシネーションの2種類である。①データからのハルシネーションは、訓練データに偏りや矛盾が存在する場合に発生する。大規模な訓練データセットでは、データ間での情報の不一致や誤解が頻発することがある。②訓練からのハルシネーションは、データセットに問題はないが、AIの訓練方法に起因してハルシネーションが生じる場合である。モデルの誤ったデコーディング、モデルが以前に生成したシーケンスに対するバイアス、モデルのパラメータへの知識のエンコード方法から生じるバイアス等が、ハルシネーションの原因となる。

大規模言語モデル (Large Language Models、LLM)
自然言語処理(NLP)や自然言語生成(NLG)の領域において、ディープラーニングを基礎としたものである。これらのモデルは、大量のデータを用いて言語の複雑な特性や相互関連性を学習し、訓練される。続いて、これらのモデルは特定のタスクに適応する技術を用いる。LLMの基本は、Googleのエンジニアが2017年に発表した「Attention is All You Need」という論文で初めて紹介されたTransformerベースのニューラルネットワークである。これらのモデルの主要な目的は、次に続くテキストを予測することである。モデルの性能や洗練度は、パラメータの数、すなわち、出力を生成する際に考慮する要素の数で判断される。LLMは、オープンソースとして提供され、オンプレミスまたはプライベートクラウドでデプロイすることができる。これにより、ビジネスの採用が促進され、サイバーセキュリティも強化される。これらのモデルは、感情分析、カスタマーサービス、コンテンツの作成、詐欺の検出、予測、分類などの多様なプロセスを自動化するのに用いられる。これらのタスクの自動化は、手間とコストを削減することができる。

大規模言語モデル (Large Language Models、LLM)における教師あり学習
この方法においては、ラベル付きの学習データセットを用いる。すなわち、各入力データには正しい出力(ラベル)が予め指定されている。大規模言語モデルの文脈において、教師あり学習は、各単語(あるいはフレーズ)が与えられた文脈において次に来るべき単語を予測する課題として捉えられる。例として、「彼は自転車に乗って_」という文が提示された場合、次に来るべき単語として「学校へ」や「公園へ」といった答えが正解として予め指定され、モデルはこの情報に基づいて学習を進める。

大規模言語モデル (Large Language Models、LLM)における自己教師あり学習
自己教師あり学習は教師あり学習の一形態であるが、人間によるラベル付けではなく、データそのものからラベルを生成する。これは、多数の未ラベルデータからパターンを抽出する力強い方法である。大規模言語モデルにおいては、通常「マスク言語モデル(Masked Language Model, MLM)」と称される手法が採用される。この手法においては、文章の一部の単語をランダムにマスク(隠蔽)し、そのマスクされた単語を元の文脈から推測するようにモデルを訓練する。例として、「彼は自転車に乗って学校へ行った」という文章がある場合、この中の「学校」をマスクして「彼は自転車に乗って_行った」とし、モデルはマスクされた「学校」を推測するように訓練される。事前学習は、モデルが基本的な言語理解を身につける初期段階である。この段階では、モデルは大量のテキストコーパス(ウェブページ、書籍、記事など)を利用して学習する。目標は、与えられた単語やフレーズの文脈から次の単語を予測する(教師あり学習)または文中のマスクされた単語を予測する(自己教師あり学習)ことである。このプロセスを通じて、モデルは語彙、文法、そして一部の一般知識(都市名、有名人、一般的事実など)を獲得する。この手法は、ラベル付きデータが不足していたり、未知のパターンを学習する必要がある際に非常に有益である。

大規模言語モデル (Large Language Models、LLM)における事前学習
事前学習は、モデルが基本的な言語理解を獲得する初期段階である。このフェーズにおいて、モデルは大規模なテキストコーパス(ウェブページ、書籍、記事などから成るテキストの集合)を用いて学習する。学習の目的は、与えられた単語やフレーズの文脈から次の単語を予測すること(教師あり学習)あるいは文中のマスクされた単語を予測すること(自己教師あり学習)である。このプロセスを通じて、モデルは語彙、文法、そして一部の共通知識(例えば都市の名前、有名人、一般的な事実など)を獲得する。事前学習が終わった後、ファインチューニングが行われる。

大規模言語モデル (Large Language Models、LLM)におけるファインチューニング
ファインチューニングは、特定のタスク向けにモデルのパフォーマンスを最適化する過程である。このフェーズで、特定のタスクに関連する小さなラベル付きデータセット(例えば、感情分析、質問応答、文章生成など)を用いてモデルをさらに訓練する。事前学習で獲得した一般的な言語理解能力に加え、モデルはこの段階で特定のタスクに関する知識やスキルを獲得する。

アラインメント (Alignment)
大規模言語モデルのアラインメントとは、そのモデルの行動を人間のユーザーに有用で安全なものとするよう調整することである。このプロセスは、望ましい行動を強化し、望ましくない行動を抑制するものと言える。アラインするためのアプローチにはいくつかあり、その一つとして、有用で正直で無害なテキストプロンプトをモデルに注入する方法がある。これにより、モデルのアラインメントが改善され、有害な出力が減少する。もう一つのアプローチとして、人間のフィードバックを用いた強化学習を利用する方法もある。これにより、モデルは有用で無害な出力を生成するよう訓練される。しかしながら、これらのアラインメント方法は効果的であるものの、それでも壊れやすいと指摘されることがある。特に、短い敵対的なプロンプトは、モデルがネガティブな行動や社会的なバイアスを引き起こす可能性がある。アラインメント手法の不完全さが報告されており、強化学習のステップ数と一部のネガティブな行動の間に逆のスケーリング関係が存在するとされている。

人間のフィードバックによる強化学習 (RLHF)
人間からのフィードバックを用いた強化学習(Reinforcement Learning from Human Feedback、RLHF)は、人間からのフィードバックを報酬と見做し、それを基に強化学習を進めるアプローチである。RLHFは主に、事前学習、微調整、そして強化学習という3つのステップに分けて実施される。事前学習では、モデルは豊富なテキストデータを活用して学習し、文法や語彙、基本的な知識、およびある程度の推論能力を身につける。この段階での学習には、主に教師なし学習の手法が採られる。微調整の際には、事前学習を経たモデルが、特定のタスクの遂行能力を高めるべく、人間からのフィードバックをもとに調整される。フィードバックは、モデルの出力の正確さや、どの出力が最も適しているかを評価するものである。最後に、強化学習のステップで、微調整されたモデルは、人間のフィードバックに基づいた報酬を最大化する方向に、更なる学習を行う。報酬は、モデルの出力が人間の評価者にどれほど有益であるかを示す。これら3つのステップは、モデルが人間の意図に近づき、適応し、理解するためのプロセスを表している。RLHFの狙いは、AIモデルが人間の利益に資する行動を増やすことである。RLHFにはいくつかの利点がある。第一に、人間の価値観がAIモデルの出力に反映されること。RLHFは人間の意図や好みに基づいた出力を目指すため、作成者の価値観がモデルの行動に影響を与える。これにより、特定の目標を達成するAIモデルを構築できる。第二に、既存の言語モデルが容易にチューニング可能であること。RLHFを通じて、人間は具体的な指示や要求を行い、モデルの行動を調整できる。例として、ChatGPTなどの会話型AIは、RLHFを利用して人間の意図に従い、無害な対話を実現するよう調整される。第三に、報酬の設定方法が柔軟であること。学習時に、人間がAIの応答の質を評価し、報酬を与えるが、その与え方はモデル作成者の好みに合わせて設計できる。一方で、RLHFには完璧でない面も存在する。フィードバックが偏っていると、モデルも偏った結果を生む可能性がある。また、フィードバックが必ずしも正確ではなく、誤った情報を学ぶ可能性もある。RLHFの大きな課題は、人間のフィードバックのスケーラビリティとコストである。教師なし学習に比べ、遅くコストがかかることがある。また、フィードバックの質と一貫性は、タスクやインターフェース、個々の人間の嗜好によって異なることがある。RLHFモデルは、人間のフィードバックによって未だ把握しきれない不適切な行動を示すことがある。これは、整列性と堅牢性の問題を浮き彫りにする。RLHFの成果は、人間のフィードバックの質に依存する。フィードバックが公平でない、一貫していない、または誤っている場合、AIは誤った学習をする可能性がある。これはAIのバイアスと呼ばれる。また、AIがフィードバックに過度に適応するリスクもある。特定の人口統計学的グループからのフィードバックが主であったり、特定のバイアスを反映していると、AIはそのフィードバックを過度に一般化することを学ぶ可能性がある。

インストラクション・チューニング (Instruction Tuning)
Instruction Tuningとは、事前学習済みの言語モデルを特定のタスクに適応させるための手法である。これは、一般的なタスク特化型のFine-tuningとは異なる特性を持つ。重要なのは、「指示」と呼ばれるタスクの説明をモデルに与え、それに従って動作するように訓練する点である。こうすることで、多様なタスクに対してファインチューニングを行い、未知のタスクに対するZero-shotの性能を向上させることができる。たとえば、異なるタスク(B、C、Dなど)にモデルを訓練する際、それぞれのタスクに「指示」を与える。この「指示」は、タスクBに対して「次の文章を要約せよ」といった具体的な説明で、それに基づいてモデルは学習を行う。この方法において、モデルは特定のタスクの実行を学習するだけでなく、与えられた「指示」に従って行動することも学習する。これにより、未知のタスク(A)でも、適切な「指示」が与えられれば、そのタスクを遂行できる。例として、モデルが未経験の新しい要約タスクに直面した場合でも、そのタスクの指示を「次の文章を要約せよ」と設定することで、モデルは問題を理解し、適切な回答を生成することができる。

コンテキスト内学習 (In-Context Learning)
In-Context Learning(文脈学習)とは、GPT-3の論文において提唱された手法であり、大規模な言語モデルが特定のタスクに対応する際に、個別のパラメータの更新(fine-tuning)を行わず、そのタスクの説明や入出力例を通じて学習するアプローチのことである。すなわち、与えられたプロンプト(テキスト)をもとにタスクを理解し、適切な出力を生成することを学習するのである。この方法により、特定のタスクに適応するためにパラメータを調整して再学習する手間が省ける。先に触れたファインチューニングは、特定のタスクにおいてモデルの精度を向上させるための一般的な手法である。この方法は教師ありの強化学習の一種で、モデルの精度を更に高めるものである。だが、新しいタスクに適応させるためには、都度モデルの再学習が必要であり、これには時間とリソースがかかるという課題がある。それに対して、In-Context Learningは各タスクの説明や例を通して学習を進めることから、一度の学習で多種多様なタスクに適応できる利点がある。In-Context Learningと大規模コーパスを用いた事前学習を組み合わせると、これをメタ学習と呼ぶことがある。特に、In-Context Learningにおける入力が0、1、あるいはわずかである場合、これをそれぞれZero-shot Learning(ゼロショット学習)、One-shot Learning(ワンショット学習)、Few-shot Learning(フューショット学習)と称する。これらの手法は、事前に言語知識を習得し、タスクの説明や例を通して学習を進める点で、人間の学習に類似している。このような学習方式は、事前に学習されたモデルであっても、特定のタスクに適応させるためにラベル付きデータが不可欠であるという問題を解決する。従来の方法では、特定のタスクに適応させるためには大量のラベル付きデータが必要であり、データのアノテーションに多くの時間とコストがかかっていた。だが、In-Context Learningはこの問題を解消し、より効率的に多様なタスクに適応できるようになる。

Zero-ShotlearningとFew-Shotlearning
Few-shot learningは、ごく少数のトレーニングサンプルから一般化能力を獲得する学習の概念である。この技術は、共通のタスク表現を学び、その表現を基にタスク特有の分類器を作成することで、データが少ないにもかかわらず、高い性能のモデルを生成する能力を有している。OpenAIのGPT-3は、その卓越したFew-shot学習能力で注目されている。GPT-3は、学習後のパラメータを更新せず、タスクの情報と少数のデモンストレーションをプロンプトとして受け取り、多様な自然言語処理(NLP)タスクを遂行することができる。これにより、モデルはタスク特有の知識を獲得し、新しい状況にも適切に対応する能力を発揮する。対照的に、Zero-shot learningは、訓練段階で直接学習していないクラスの分類を行う技術である。これは、モデルが訓練時に未知の新しいタスクやクラスに対して予測を行う能力を有している。GPT-3の場合、Zero-shot learningは、モデルにタスクの説明のみが与えられ、具体的なデモンストレーションは一切与えられない状況を示している。このシナリオにおいて、GPT-3は自身の学習済みの知識を駆使し、問題の解決策を生成する。

サンプリング手法
大規模言語モデル(LLM)は、テキストを生成する際に異なるサンプリング手法を使用する。これらの手法は、モデルが出力するテキストのバリエーションや一貫性を制御する。

サンプリング手法説明
Greedy Samplingこれは最もシンプルな形のサンプリングである。各ステップで最も高い確率を持つ次の単語を選択する。この手法は高速であり、出力の一貫性は保たれるが、出力に多様性が欠ける可能性がある。
Beam SearchBeam Searchはgreedy samplingを拡張したものである。各ステップで確率の高い複数の「ビーム」(単語のシーケンス)を保持し、それら全体を評価して進める。最終的な出力は最も確率の高いビームを選択する。これはより一貫した出力を提供するが、greedy samplingと同様に、多様性が欠ける可能性がある。
Stochastic Sampling (Random Sampling)この手法では、各ステップで次の単語を確率分布に基づいてランダムに選択する。これにより、より多様なテキストを生成できるが、一貫性が低下する可能性もある。
Top-K Samplingこの方法では、モデルが最も可能性が高いと判断した上位K個の単語からランダムに選択する。これにより、生成されるテキストに多様性を持たせつつ、極端な単語の選択を防ぐことができる。
Top-p Sampling (Nucleus Sampling)このサンプリング手法では、次の単語の確率分布が累積して指定されたp値を超えるまでの単語を考慮に入れ、その範囲からランダムに選択する。これは、適度な多様性と一貫性を持つテキストを生成するためにしばしば用いられる。

オープンソースの大規模言語モデル(Large Language Model、LLM)
2023年初頭における大規模言語モデル(LLM)のオープンソース化の動きは、Meta AI社によるLLaMAの公開から始まった。LLaMAは、AIのサブフィールドでの作業を進めるために設計された基盤となる大規模言語モデルであり、公開されたことによって研究と商用利用の両方に無料で提供されるようになった。このリリースは、他の企業や団体にもインスピレーションを与えた。それに続いて、LAION AI社はOpenAssistantを公開した。OpenAssistantは、ChatGPTのオープンソースの代替品として提供され、特に指示の例を収集し、既存のLLMを調整することを主な目的としている。LLaMAの公開を皮切りに、2023年の3月と4月には、VicunaとBaizeという名前の研究目的で利用されるオープンソースのLLMが開発・公開された。VicunaはLLaMAから派生し、BaizeはLLaMAをファインチューニングして新しいモデルを作成した。さらに、Dolly 2.0という名前の商用利用可能なオープンソースのLLMも開発され、これは指示に従うデータセットを利用してファインチューニングされた。2023年4月後半から5月にかけて、画像入力が可能なモデルの開発が活発化した。LLaVAは言語と画像の理解を目的としたマルチモーダルモデルであり、MiniGPT-4はビジョン・ラングエージ理解の向上を目指して開発された。特に、日本においてはOpenCALMとJapanese-gpt-neoxという日本語特化型のオープンソースLLMが公開されている。これらのLLMのオープンソース化は、新しい研究や応用開発の可能性を広げ、各地域の特定の要件に対応する動きも見られるようになった。

オープンソースの大規模言語モデル(Large Language Model、LLM)の性能比較
LLM-Leaderboardというプラットフォームを通じて、これらの多種多様なLLMの性能を確認・比較することができる。

スケーリング則 (Scaling Laws)
大規模言語モデルのスケーリング法則は、モデルの性能がその規模、すなわちモデルのパラメータ数、訓練データセットの規模、および計算量という三つの要素に依存するというものである。これらの要素はパワーロー関係を有しており、この関係性は7つ以上の桁数にわたる広範な範囲で存在している。この法則では、モデルの詳細なネットワーク構造、例えばネットワークの深さや幅は、一般的にモデルの性能への影響が少ないとされている。したがって、大規模言語モデルの性能向上は、主にモデルの規模拡大、訓練データの拡大、および計算リソースの増加によって達成される。大規模なトランスフォーマー言語モデルのテスト損失、すなわち、モデルがどれだけ正確に新たなデータを予測できるかを予測するには、以下の三つの条件におけるパワーローが考慮される。

  • パラメータ数が限られたモデルが、大規模なデータセットで訓練される場合。
  • 早期停止を行い、制限されたデータセットで訓練される大規模モデルの場合。
  • 計算量が制約されていても、大規模なデータセット、適切なサイズのモデル、そして最適なバッチサイズで訓練される場合。


これらの条件下では、パラメータ数、データセットの規模、および訓練に使用する計算量を増やすことにより、テスト損失が大数に比例して減少し、モデルの性能が向上する。しかし、最近の研究によれば、新しい訓練手法であるUL2Rの使用により、大規模言語モデルのパフォーマンスやそのスケーリングカーブが大幅に改善されることが示されている。UL2Rは、混合デノイザーオブジェクティブを使用して既存の大規模言語モデルをさらに数ステップ訓練し、追加計算コストは僅かながら、スケーリング特性が大きく改善される。また、UL2Rはモデルにプレフィックス言語モデリングと長短スパンの腐敗タスクを組み合わせたUL2の目的を教える。これにより、モデルは新しいプロンプト機能を学習し、複数の空白を含むインプットプロンプトの空白を埋める能力を獲得する。この新しい手法の使用により、既存の数ショットNLPタスクのスケーリング法則が大幅に改善され、UL2Rが計算量の約半分で、最終的なPaLM 540Bモデルと同等のパフォーマンスを得ることが可能となった。UL2Rの採用により、U-PaLMは新しいタスクパフォーマンスと全体的に改善されたスケーリングカーブを有し、さらに入力プロンプト中の複数の空白を埋める二次的なプロンプト機能、すなわち双方向インフィリングを持つようになった。これにより、モデルの利用価値は大幅に向上した。

大規模言語モデル(Large Language Model、LLM)のデータセットのサイズ
大規模言語モデル(LLM)のトレーニングデータセットのサイズは、数十億から数千億のパラメーターに及ぶ。GPT-3は、訓練に約45TBの大規模なデータセットを前処理して、約570GBのテキストデータを使用する。このモデルは、約1兆7500億という膨大なパラメータ数を持つ。訓練に使用される言語モデルのデータセットは多様で、WebText、Wikipedia、Common Crawl、ニュースのアーカイブ、書籍、科学論文など、様々なソースが含まれる。これらのデータは膨大な情報を提供し、言語モデルの学習の深みと広さを増す。GPT-3の訓練データセットは、前世代のGPT-2と比較して顕著に大きい。GPT-2は約40GBのデータセットと150億のパラメーターを持つのに対し、GPT-3はそれを大きく超える。この進化は、言語モデルの進歩に伴い、訓練データの規模と複雑さが増大する傾向を示す。

大規模言語モデル(Large Language Model、LLM)のデータセットの質の重要性
データセットの量と品質は、大規模言語モデルの学習において重要である。データセットの量については、情報の量が多ければ多いほど、一般的にモデルのパフォーマンスが向上するとされている。これは、多くの情報源から学習することで、モデルが広範で精密な知識を得る可能性が高まるためである。ただし、データの量が一定を超えると、パフォーマンスの低下や過学習が起こり得る。一方、データセットの品質については、高品質なデータから学習することで、モデルの能力が向上する。これは、高品質なデータを学習に用いることで、モデルが正確かつ信頼性のある情報を得る可能性があるためである。また、データの品質だけでなく、データの均一性も重要である。均一なデータセットによって、偏りのない学習が可能となる。具体的な目標を達成するためには、一般的なテキストデータだけでなく、特定の目的に特化したデータの活用が求められる。特定の目的に適したデータセットは、目的達成に有効であるため。データセットを収集する方法としては、ウェブページ、CommonCrawl、Redditのリンク、Wikipediaなどがよく利用される。これらの情報源からデータを収集し、適切にフィルタリングと処理を行うことで、データの品質と有用性が向上する。データセットのオープンソース化により、容易に高品質なデータを手に入れることができる。

大規模言語モデル(Large Language Model、LLM)のパラメータ数
大規模言語モデルのパラメーター数は、そのモデルの複雑さを示す一つの指標である。多くのパラメーターを持つモデルは、より多くのデータを学習し、より複雑な関係やパターンを捉える能力がある。以下は、主要な言語モデルとそれらのパラメーター数を示すものである。

  • GPT (Generative Pretrained Transformer) – 1.5億のパラメーター
  • GPT-2 – 15億のパラメーター
  • GPT-3 – 1750億のパラメーター

このような大規模モデルは、大量の計算リソースを必要とし、モデルの訓練には長い時間と膨大な量のデータが必要である。しかし、これらの大規模モデルは、非常に自然な人間のようなテキストを生成する能力を持ち、多くのNLP (自然言語処理) タスクで優れた結果を示す。これらのモデルは、一般的な言語理解や生成タスクだけでなく、文書の要約、質問応答、翻訳、テキスト生成などの多くの応用例に使われる。また、最近の研究では、これらのモデルを使用して特定のタスクに適応させるための微調整(fine-tuning)が一般的に行われている。しかし、これらの大規模モデルには課題もある。例えば、モデルの透明性と解釈可能性、訓練データに基づくバイアス、誤った情報の生成、エネルギー消費といった環境への影響などが挙げられる。

プロンプトエンジニアリング
特定のタスクや望ましい出力のために言語モデルを最適化および微調整するAI(人工知能)の技術である。この分野では、AIモデルの特定のタスクにおけるパフォーマンスを向上させるために、プロンプトまたは入力を慎重に構築するプロセスが含まれている。プロンプトは数語から1段落まで単純にすることも、複雑にすることも可能で、AIモデルが応答を生成するための開始点として機能する。プロンプトエンジニアリングはまた、指定されたプロンプトに基づいてコードスニペットを生成するためにも使用される​​。プロンプトエンジニアリングは、人が生成的AIサービスに入力できるプロンプトを洗練するプロセスであり、ChatGPTやDALL-Eのようなジェネレーターで自然言語を使用して誰でもこれを行うことができる​​。プロンプトエンジニアリングは、生成AIモデルが解釈し理解できるようにテキストを構造化するプロセスであり、プロンプトはAIが実行するべきタスクを記述する自然言語テキストである​。この分野は、ChatGPTのような大規模言語モデル(LLM)の出力を向上させるプロセスとしても説明されている​​。プロンプトエンジニアリングは、機械学習モデルが正確な出力を生成するように導く高品質のプロンプトを設計するものであり、プロンプトの正しいタイプを選択し、長さと構造を最適化し、タスクに対する順序と関連性を決定することが含まれる​​。

ChatGPT

学習データの時間的カットオフ
学習データの時間的カットオフとは、学習に使用するデータの期間を指す。例えば、Chat-GPT、GPT-4は2023年4月までのデータを使用して学習されている。そのため、Chat-GPT、GPT-4は2023年4月以降の情報を正しく生成することができない。

ChatGPTのウェブブラウジング機能
ChatGPTはウェブブラウジング機能を備えており、これによりユーザーからの質問に対する最新の情報をWeb上から取得することが可能となっている。この機能の利用により、ChatGPTが学習したデータが2022年1月までの情報に限定されているという制約を補完することが可能となる。具体的には、最新のニュース記事や特定トピックに関するデータなど、インターネット上の情報を直接アクセスして答えを導き出すことができる。ウェブブラウジング機能は、ChatGPT Plus(有料版)で利用可能で、ユーザーが質問すると、ウェブサイトを検索・閲覧した上で回答を提供する​。2023年5月12日にはテスト実装が行われ、2023年9月27日には全てのユーザーに向けてブラウジング機能が再度利用可能となった。ウェブブラウジング機能を利用するには、「Beta Features」を有効化する必要があるが、これについての詳細は提供されていない。さらに、ウェブブラウジング機能は「Browse with Bing」を使用しており、ChatGPTがウェブ上で情報を収集し、回答を提供する仕組みである。

ChatGPTの知識
ChatGPTの知識範囲は、訓練データの時期や分野、内容によって制約されています。具体的には、このAIは訓練データに基づいて応答を生成しますが、その訓練データは主に2021年までの情報に基づいているため、それ以降の情報や出来事については詳細に説明することは難しいかもしれません​。訓練データは多くの異なる分野から収集されているものの、全てのトピックについて完全に正確な情報を提供するわけではない。特に科学、技術、法律といった高度に専門的な分野においては、具体的かつ詳細な情報が必要な場合、ChatGPTの知識範囲を超えてしまうことがある。また、ChatGPTは幅広い情報源から学習しているが、専門家のレベルの深い知識を持つわけではない点を理解することが重要である​​。多くの分野について基本的な理解と一般的な知識を提供することは可能だが、特定の専門分野における最新の研究や高度な議論については十分な情報を提供できない場合がある。さらに、ChatGPTは「ハルシネーション」、つまり存在しない事実や情報を生成することがあり、実際の状況や常識的な知識を理解し応答する能力に欠けている​​。この現象は、AIが確信を持って情報を提供できない時や、ユーザーからの具体的な情報に対する具体的な回答が必要な場合に特に見られる。そのため、重要な意思決定をする際には、必ず複数の情報源から情報を収集し、信頼できる専門家の意見を求めることが推奨される。これらの制約を理解することで、ChatGPTをより適切に活用することが可能となる。

学校現場での対話型AI「ChatGPT」の活用方法と注意点
文部科学省は、学校現場での対話型AI「ChatGPT」の活用方法と注意点をまとめる方針を決定し、小中高校向けの指針を公表した。教育現場における新たなテクノロジーとしてのAI活用は、利益の追求と学生の育成の両方をバランス良く考慮することが重要との視点から、ChatGPTをどのように適切に活用すべきかを示すガイドラインが考えられた。文部科学省は、現時点では有効な利用の場面を検証しつつ、限定的な利用から始めることが適切との見解を示した。

生成AI活用のリスク

正確性に関するリスク
出力結果が必ずしも正しいとは限らないことに注意する。個人情報などを含む出力結果を誤って使用することで名誉毀損につながる可能性や、医療に関する誤った情報により健康被害をもたらすリスクがあることも注意が必要。

セキュリティに関するリスク
Large Language Model(LLM)利用時のセキュリティ対策は多岐にわたる。特に、プロンプトインジェクション攻撃は重要なリスクであり、ユーザーからの不正な入力、つまり特殊文字や実行可能なコードが含まれたプロンプトを排除するためのフィルタリングやサニタイズ処理が必要となる。プロンプトインジェクションは、LLMを不正に操作するために工夫された入力を通じて、不正アクセス、データ漏洩、および判断力の損失を引き起こす可能性がある。また、LLMの出力を適切に検証しないことは、下流のセキュリティエクスプロイト、システムの危険にさらすコード実行、およびデータの露出を引き起こす可能性がある。したがって、LLMの出力を適切に検証し、可能なセキュリティリスクを低減することが重要である​。ユーザーが入力できるプロンプトを制限することも有効な対策であり、これはホワイトリスト方式と呼ばれる。許可されたプロンプトのみを入力可能とするものであり、しかし、この方法はLLMの最大の魅力である体験の自由度を制限する可能性がある。また、システムの学習内容を制限することで、ユーザーに開示する情報の範囲を制御し、ユーザーのプライバシー保護や企業の機密情報保護に寄与する。例えば、電話番号やメールアドレスなどの個人情報をユーザーの入力から排除するバリデーションを行うなど、リスクを最小化する方法がある。

情報漏洩に関するリスク
LLMに入力された情報がプラットフォーマーによって保持され、それが原因で情報漏洩が発生する可能性がある。ユーザーのクエリが言語モデルのトレーニングに使用される場合、その入力はモデル内に格納され、簡単には削除できない。医療記録、財務データ、または商業秘密などの機密情報を含むリクエストを処理することは、プライバシー法を違反する可能性もある​。さらに、他のユーザーの質問に対する回答として、その情報を誤って公開してしまうケースもある。

プロンプトインジェクション
プロンプトインジェクションは、AIチャットボットの脆弱性を悪用して特定のコードやコマンドを実行させる攻撃手法の一つであり、質問に対し回答する形式のAIチャットボットを標的にする​​。これは、ユーザーが入力フォームや検索バーなどに入力するデータを不正に操作し、開発者の意図しない動作を引き出すことを目的としている。具体的には、ChatGPTなどのAI/機械学習モデルに対して、悪意をもって指示(プロンプト)を送り込む行為を指す。それにより、ユーザーのチャットボットへの問いかけに対するレスポンスが盗まれたり、不適切な結果が出力されるリスクがある。プロンプトインジェクション攻撃は、マシン学習モデルやその他のAIシステムに対する懸念として増加しており、これらの攻撃はデータ侵害、セキュリティ対策の回避、またはモデルの有害な動作を引き起こすなど、深刻な結果をもたらす可能性がある​。プロンプトインジェクションは、特にプロンプトベースの学習を利用するAI/MLモデルに影響を与える新しい種類の脆弱性とされている​​。

公平性のリスク
Large Language Model(LLM)を利用する際には、公平性の観点からいくつかの重要な考慮事項が存在する。まず、データセットの偏りが重要な問題である。特定の人種や性別に偏ったデータセットを使用すると、その偏りがモデルの結果に反映される可能性があり、これは社会的バイアスの拡散につながる可能性がある​​。これは、モデルが全体的に公平な結果を出すために、データセットが多様であることが求められる。

透明性のリスク
データ収集について考慮する必要があり、LLM(Large Language Models)はインターネットを含む様々な源からデータを収集する。しかし、その過程は必ずしも透明であるとは限らず、また明確な許可が得られているわけでもない。この点については、ジェネラティブAIツールがユーザーから適切な同意を得るか、データがどのように収集、使用、共有されるのかについて透明な情報を提供しない場合、ユーザーの信頼を損ない、そのプライバシー権を侵害する可能性がある​1。したがって、データ収集の合法性と倫理性を考慮し、透明で許可された形で行われるようにすることが重要である。また、訓練データの透明性も問題となる。LLMが訓練に使用するデータが透明で許可された方法で収集されたものであるかどうか確認することが大切だ。現在、ジェネラティブAIのチャットボットは、インターネットからスクレイプされたデータを含む様々なデータセットを用いて訓練されており、これがどのように規制されているかは、プライバシーの管轄区域によって大きく異なり、広範な法的考慮事項が一般的に存在する​​。訓練プロセスは、データが慎重にキュレーションおよび管理されていない場合、責任問題になり得る​。データサイエンティストは、データ収集の透明なガイドラインを作成することで、訓練データのバイアスを積極的に特定し、最小限に抑えることができる​​。

著作権に関するリスク
著作権法は、作成者の知的な労働を保護するための法律であり、それにより作成者は自分の作品を複製、公開、改変するなどの権利を有している。そのため、LLM(Language Learning Model)のようなAI技術を使用する際には、著作権の観点から注意すべきいくつかの点がある。

他者の著作物をLLMに入力する場合の問題
LLMに他者の著作物を入力し、それに基づく結果を出力する行為は、著作権法における「複製」に該当する可能性がある。ただし、日本では公に利用可能な情報をAIモデルの訓練に使用する合法性に関する質問が増えている中、機械学習エンジニアは見つけた任意のデータを使用できると確認されている​​。また、日本の著作権法は、AIシステムを訓練するために使用されるデータセットに含まれる資料や作品には適用されないとされている​​。著作権法には「情報解析」や「非享受利用」など一定の例外的な状況が存在し、その範囲内であれば著作権侵害とはならない。それでも、他者の著作物をランダムに入力して結果を得ると、その結果が元の著作物と同一又は類似する可能性があり、それが第三者に利用されると著作権侵害を助長する可能性がある。そのため、無闇に他者の著作物を入力するのは避けるべきである。

他者の著作物がLLMから出力される場合の問題
LLMの出力が他者の著作物(全体や一部)であったり、二次的著作物(翻訳や要約など)である場合、これは著作権侵害のリスクが高い。これは、著作権者が有する「翻案権」を侵害する可能性があるからである。出力が他者の著作物である場合、AIの提供者は他者の著作物を送信可能化することにより著作権侵害になり得る。また、ユーザーも、出力された他者の著作物を知っていてそれを利用すると、同様に著作権侵害となる。LLMや生成AIはコンピュータ研究とアプリケーションに革新的な役割を果たしており、これらのモデルが著作権データを出力するかどうかについての論争が起こっている​。LLMはテキスト、イメージ、オーディオ、コード、ビデオを含む新しいコンテンツを作成するための生成人工知能(AI)アプリケーションの主要なコンポーネントであり、人間の監督、指導、責任ある設計と運用なしには、これらの生成AIアプリケーションは著作権侵害の可能性を含む多くの問題を引き起こす可能性がある​。

秘密保持契約に関するリスク
ユーザーがLLMに入力するデータが顧客や第三者から取得した情報を含む場合、その情報の使用が契約義務を違反する可能性がある。機密情報または個人情報をLLMに入力する際には、その情報の出所と、その情報の使用または共有がデータのLLMでの使用と矛盾する契約が存在しないかを慎重に確認する必要がある。また、契約リスク軽減の一環として、契約関連のリスクを特定、評価し、組織全体でのリスク露出を制限するプロセスが重要である。

商用利用・ライセンスに関するリスク
商用利用を考える際、いくつかの重要な点に注目する必要がある。まず、モデルがオープンソースであるか否かは、利用可能性に大きく影響し、オープンソースであればそのソースコードを誰でも利用、改変、再配布できるが、全てのオープンソースモデルが商用利用可能であるわけではない。したがって、特にモデルのライセンスを確認することが重要となる。
オープンソースでも商用利用が許可されているとは限らず、ライセンスを確認し、商用利用が許可されているかを確認する必要がある。Apache 2.0やMITライセンスでは、モデルの商用利用、改変、再配布が可能だが、それぞれのライセンスには独自の制限や義務があり、それらを理解し遵守することが求められる。また、モデルには使用を規定するライセンスが付与され、一部のモデルではソースコードと学習済みモデルのライセンスが異なり、商用利用を複雑にする可能性がある。例えば、ソースコードは商用利用可でも、学習済みモデルは商用利用不可のケースも存在し、自分でデータセットを用意し、新たにモデルを学習させる必要がある。

利用規約に関するリスク
AIサービスを利用する場合、そのサービスが商用利用を許可しているかどうかは大きなポイントとなる。商用利用の可否は利用規約等によって規定されている。この情報は、サービスを提供しているプラットフォーマーのウェブサイト等で閲覧可能である。OpenAIのような大手プラットフォーマーでは、その利用規約により、ユーザーがサービスのアウトプットを商用利用可能と明示していることがある。しかし、商用利用の可否だけでなく、サービスの利用規約その他の規程に記載されている他の重要な条件や制限も十分に理解しよう。それらは、サービスの使用をどのように制限するか、またはユーザーがどのような義務を負うかを定めている。例えば、OpenAIの利用規約では、サービスから生成されたコンテンツの知的財産権は全てユーザーに帰属し、商用利用を含め任意の目的で利用可能であると明示されている。これにより、ユーザーはOpenAIが提供するサービス、例えばChatGPTをビジネスの目的で利用することが可能になる。

10. 関連情報(シラバス外)

単語集

デジタルトランスフォーメーション(DX)
2004年、エリック・ストルターマンは、デジタルトランスフォーメーションを「情報技術の浸透が、人々の生活をあらゆる面でより良い方向に変化させること」と定義した​​。この定義は、デジタル技術により情報技術と現実が徐々に融合し、結びついていく変化、さらにデジタルオブジェクトが物理的現実の基本的な素材になることを示唆している。この時点で、DXは単なる技術的な発展ではなく、社会全体に深く広がる変化を意味していた。その後、2022年にはストルターマンが日本の文化やDXの進捗を踏まえ、DXの定義を再提示した。この新しい定義は、社会、公共、民間の3つの観点からデジタルトランスフォーメーションを考えるものであり、より包括的な視点を提供している。新しい定義では、DXが単なる技術的な発展ではなく、リアル空間とデジタル空間の融合によって、人々の生活に広く深い変化をもたらすことが強調されている​​。また、経済産業省はDXを「企業がビジネス環境の激しい変化に対応し、データとデジタル技術を活用して、顧客や社会のニーズを基に、製品やサービス、ビジネスモデルを変革するとともに、業務そのものや、組織、プロセス、企業文化・風土を変革し、競争上の優位性を確立すること」と定義している​​。この定義は、DXが単に技術的な側面に留まらず、ビジネスモデルや組織文化における根本的な変化を含むことを示している。

Googleの猫
Google社が2012年に大量の画像データから「猫」を抽出し、その隠れ層では猫の概念と思われる画像が抽出された。これにより、当時はコンピュータがディープラーニングにより意味を理解できたと考えられた。

みにくいアヒルの子の定理
何らかの「仮定(事前知識や偏向、帰納バイアス)」がないと「分類(類似性の判断)」は不可能であるということを主張する定理である。つまり分類やパターン認識において、あらゆる特徴量を客観的に同等に扱うことはできず、何らかの仮定に基づいて主観的に特徴量選択を行うことが本質的に必要であることを示す。

モラベックのパラドックス
人間にとって簡単なことほど機械がやるのは難しいと呼ばれる考え。「明日の利益を予測する」「ゲームをクリアする」といった大人が行うような高度な知性に基づく推論よりも、例えば「おもちゃで遊ぶ」「興味深いものに注意を払う」といった1歳児が行うような本能に基づく運動スキルや知覚を身に付ける方がはるかに難しいというパラドックスをいう。

End-to-End Learning
ディープラーニングはロボット学習への応用も盛んに行われており、大きな影響をもたらせた。これはある一連の動作を学習する際に従来は一つ一つの動作をステップバイステップで学習していたものを、一つのネットワークとして表現することで全動作を一気に学習することが可能になったのが非常に大きいとされている。

常識推論
自然言語処理においては学際的な研究が進められている。その一つとして、機械が知能を持っているか否かを判断することを目的とした知能テストが多数考案されており、常識推論タスクとして注目を浴びている。

スパースモデリング
あるデータにおいてほとんど0であり、稀に1が現れる形になっているデータをスパースなデータと呼ぶ。この性質を用いて計算量の削減を行うモデルをスパースモデルという。

Society5.0
日本政府はSociety5.0と呼ばれる仮想空間と現実空間を高度に融合させたシステムにより、経済発展と社会的課題の解決を両立する人間中心の社会を提唱した。

COPA
南カリフォルニア大学のAndrew Gordonの研究グループが提案したのが COPA (Choice of Plausible Alternatives)。これは「知能を持つ」ことが事象間の因果関係を理解することだと捉え、これを計測しようとしたものである。

WAC
Hector Levesqueの研究グループが定式化した 「統語的手がかりだけでは解けないような照応解析の問題が解けること」が知能を持つこととしてこれをテストの形にした。現在このテストはAIのトップ会議でコンペティションが開かれるなどしており、まだまだ精度は低いものの注目を浴びつつある。

ボルツマンマシン
1985年、ジェフリー・ヒントンらによって確率的に動作するニューラルネットワークの一種。各変数間の依存関係をグラフとして表現したモデルで、ボルツマン分布を用いる確率的回帰結合型ニューラルネットワークのこと。ホップフィールドネットワークとも呼ばれるネットワークの一種である。学習の際に最尤推定をおこなってデータに当てはめる確率分布を推定する。

回帰のモデルの汎化誤差
誤差関数を二乗誤差としたとき、回帰のモデルの汎化誤差はの三つの要素に分解できる。

バリアンス(variance)モデルが複雑になりすぎて過学習の状態にある時に高くなる。
バイアス(bias)逆に単純すぎて未学習の状態にある時に高くなる。
ノイズ(noise)データ自体に混入しておりモデルの種類や学習方法を工夫しても取り除くことは困難。

Ponanza
深層学習を用いた将棋AI。

DeepFace
Facebookの研究グループらが2014年に公表したディープラーニングを用いた顔認識システム。

GNMT
Googleは2016年からディープラーニングを用いたGNMTを用いて、Google翻訳の精度を向上させた。現在機械翻訳の精度が高いとして評価が高く、従来のモデルに比べて言葉の流麗さが増したと言われている。

AlphaFold
Alphabet傘下のDeepMindは、AIを使ってタンパク質の構造を見出し新薬開発に活かすAlphaFoldを開発しCASP13コンテストで優勝した。

イルダ
女性をイメージしたチャットボットAIであるイルダは2020年末に韓国で公開されたが、利用者によるセクハラの会話が問題となった。性的少数者に対して差別的な発言を行うとして公開からわずか3週間で停止に至った。

Tay
Microsoft社が開発したチャットボットAI。特定の政党の賞賛を行うなど政治的な発言をしたため、停止に至った。

KLダイバージェンス
2つの確率分布がどの程度似ているかを表す尺度。非負の値をとり、2つの確率分布が同じ場合に値は0となる。

WER
音声認識技術の一般的な評価尺度として用いられる。この値をいかに下げるかということを目標に研究開発競争が繰り広げられており、ィープラーニング技術の向上により飛躍的な精度向上を果たしている。

MAML
メタ学習のアルゴリズムの1つ。更新後の目的関数の値の和が小さくなるように初期パラメータを決定する、最適化処理において、勾配の勾配を求める、回帰、分類、強化学習等のタスクに適用可能であるという特徴がある。

コサイン類似度
2つのベクトル間の類似度の指標で、-1~1の範囲をとる。

ニューラル常微分方程式
ResNetの課題にあった多くのメモリと時間を要する課題にを解決するため、中間層を微分方程式で捉える手法であり、NIPS2018のベストペーパーに選ばれた。

データクレンジング
データベースなどに保存されているデータの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正、正規化などを行ってデータの品質を高めること。

敵対的攻撃(Adversarial attack)
微弱なノイズをデータに混入させ、それにより人工知能の判断を誤らせる攻撃のことを敵対的攻撃といい、敵対的攻撃において用いられるデータを敵対的事例という。パンダとして正しく認識されていた画像に微弱なノイズを混ぜることでテナガザルと認識させてしまう事例が有名。
敵対的攻撃の防御策として学習データにあらかじめ敵対的事例を混ぜて学習させる敵対的学習や入力が敵対的事例かどうかを判別するニューラルネットワークをあらかじめ作っておくADN(Adversary Detector Network)がある。ネットワークの活性化関数にk-WTA(k-Winners-Take-All)を用いると敵対的攻撃に強いモデルが得られることがわかっている。

ARIMA(autoregressive integrated moving average)
時系列データの解析手法で非定常過程のデータに対して適用できるのが大きな特徴。自己回帰モデル(ARモデル)、移動平均モデル(MAモデル)、和分モデル(Iモデル)の3モデルを組み合わせたモデルで、自己回帰和分移動平均モデルとも呼ばれる。

SARIMA(Seasonal AutoRegressive Integrated Moving Average)
時系列データの解析手法でARIMAモデルに「季節的な周期パターン」を加えたモデル。

CIFAR〈詳細〉
主に画像認識を目的としたディープラーニングのチュートリアルで使われているデータセット。CIFAR-10は10クラス(種類)の5万枚の訓練データ用(画像とラベル)1万枚のテストデータ用(画像とラベル)からなる。100クラスのCIFAR-100もある。

Fashion-MNIST
学習用に6万枚、テスト用に1万枚用意された10種類に分類できる衣類品画像のデータセット。

SI接頭語

接頭語記号10^n
ヨタY24
ゼタZ21
エクサE18
ペタP15
テラT12
ギガG9
メガM6
キロk3
ヘクトh2
デカda1
デシd-1
センチc-2
ミリm-3
マイクロμ-6
ナノn-9
ピコp-12
フェムトf-15
アトa-18
ゼプトz-21
ヨクトy-24

技術用語

Google Scholar(グーグルスカラー)
学術論文の検索エンジン。

Kaggle(カグル)
データ解析のコンペティションやデータサイエンスによるディスカッションが行われるプラットフォーム。

Coursera(コーセラ)
世界中の大学の講義を受講できるオンライン講座。

arXiv(アーカイブ)
研究論文の公開・閲覧ができるWebサイト。

OpenAI
2015年に設立された人工知能を研究する非営利団体。イーロン・マスクらアメリカの起業家や投資家などが参加し、2016年にOpenAIGymの提供をはじめた。

OpenAI Gym
自分で製作した強化学習用アルゴリズを試験できるAIシミュレーションプラットフォーム。

中国の主要IT3社「BAT」
「Baidu」・「Alibaba」・「Tencent」

中国製造2025
2015年5月に中国政府から発表された2025年までの中国国内の製造業発展のロードマップで2049年までの発展計画が3段階で表されている。ドイツの産業プロジェクトであるインダストリー4.0の中国版と言われている。

LOD
LODは、ウェブ上でコンピュータ処理に適したデータを公開・共有する方法であり、wikipediaをLOD化したDBpediaも作られている。

MAAS
「ICTを活用してマイカー以外の移動をシームレスにつなぐ」という概念。

Define-by-Run
ニューラル設計を動的に行うことができる。計算グラフの構築と順伝播処理の実行が同時に行える。

トロッコ問題
「ある人を助けるために他の人を犠牲にするのは許されるか?」という形で功利主義と義務論の対立を扱った倫理学上の課題。自動運転などのAIに関する倫理観の議論となる問題の1つである。

Adversarial Examples
人間では認識しづらいが、AIが認識を誤るような情報を加えたデータのこと。

API化
自然言語処理に関わるAIタスクは毎回一からシステムを作り上げる必要がある。たとえば少しのタスク追加、もしくは削減を行う場合でも一から再設計する必要がある。これに対して、自然言語処理で使用するタスクに対応するAPIを作成することで、事実上すべての自然言語処理関係のタスクをAPIの呼び出し・組み合わせで構築することが可能になった。たとえばOpenAIでは自然言語処理系AIの汎化の例としてGPT-3(1,750億のパラメータを調整した自然言語処理系)にアクセス可能となっている。さらにGPT-3を使用する/予定のある商用アプリケーションのショーケースも公開されている。

AutoML(Automated Machine Learning)
AutoMLでは機械学習の各プロセスを自動化してエンジニアの生産性を向上させ、誰でも機械学習を使えるようになることを目指した技術のこと。企業内のデータサイエンティストの不足を補ったり、AIの知識がない人材でも機械学習による成果をえたりすることが可能となる。具体的にはAutoMLでは大きく「ハイパーパラメータチューニング」「モデル選択」「特徴エンジニアリング」の3点を行う。

データサイエンティストに求められるスキルセット
データサイエンススキル、データエンジニアリングスキル、ビジネススキルの3つ。

データサイエンススキル情報処理、人工知能、統計学などの情報科学系の知識を理解し活用する力。
データエンジニアリングスキルデータサイエンスを意味のある形に使えるようにし、実装、運用できるようにする力。
ビジネススキル顧客企業が抱えるビジネス課題を整理し解決に導くためのスキル「マネジメントスキル」「コミュニケーションスキル」「ドキュメンテーションおよびプレゼンテーションスキル」などがある。

AI関連の国際会議・学会

AAAI(Association for the Advancement of Artificial Intelligence)
1979年に「American Association for Artificial Intelligence”」として設立され、2007年に 「Association for the Advancement of Artificial Intelligence」 と改称された。世界中に6,000人以上の会員がいる。アレン・ニューウェル、エドワード・ファイゲンバウム、マービン・ミンスキー、ジョン・マッカーシーといった著名な計算機科学者が初期の会長を歴任した。AAAI は人工知能分野全体をカバーする AAAI Conference と IJCAI の他に、数々の分野にわかれた国際会議を開催している。

CVPR(Conference on Computer Vision and Pattern Recognition)
コンピュータビジョンとパターン認識に関する会議(CVPR)はコンピュータビジョンとパターン認識に関する年次会議のことで画像認識を主にテーマとしている学会。

NeurIPS(Conference and Workshop on Neural Information Processing Systems)
毎年12月に開催される機械学習と計算論的神経科学の会議。ニューラルネットワーク技術を主にテーマとしている学会であるが、近年は機械学習をテーマにした発表が増加している。

ICML(International Conference on Machine Learning)
機械学習における主要な国際学術会議で、 NeurIPSやICLRと並んで機械学習と人工知能の研究に大きな影響を与える3つの主要な会議の1つ。

自動運転

自動運転に関する法律(SAE J 3016)
自動運転にはその度合いに応じてレベルが定義されており、アメリカのSAEインターナショナルによって定義された「SAE J 3016(2016)」が世界共通基準となっている。

レベル0 運転自動化なし運転者が全ての運転操作を実行する
レベル1 運転支援 システムがアクセル・ブレーキまたはハンドル操作のいずれかを条件下で部分的に実行。
レベル2 部分運転自動化 システムがアクセル・ブレーキまたはハンドル操作の両方を条件下で部分的に実行。
レベル3条件付運転自動化システムがすべての運転操作を一定の条件下で実行。作動継続が困難な場合は、システムの介入要求等に運転者が適切に対応。2021年3月にレベル3相当の車が市販されている。
レベル4高度運転自動化システムがすべての運転操作及び作動継続が困難な場合への対応を一定の条件下で実行。
レベル5完全運転自動化システムがすべての運転操作及び作動継続が困難な場合への対応を条件なしで実行。

日本の自動運転の法律現状
日本では2020年4月に道路交通法と道路運送車両法が改正され、レベル3の自動運転で公道の走行が可能となった。高速道路など一定の条件の下であれば、システムからの運転引き継ぎを要請されている時などを除き、運転者がハンドルから手を離してシステムに運転を任せれるようになった。2025年を目処にレベル4の完全自動運転システムの実用化が見込まれている。なお、アメリカのカリフォルニア州ではすでに無人自動運転車の走行が認められている。

自動運転と道路交通法
自動運転の自動車が公道を安全に走行できるように改正された主なポイントは「1.自動運転装置による走行も「運転」と定義」、「2.自動運転装置を使う運転者の義務」、「3.作動状態記録装置による記録を義務付け」の3つ。

(1)自動運転装置による走行も「運転」と定義
自動運行装置とは自動運転システムのことで、これまで運転者が担っていた認知・予測・判断・操作の全てを代替できる機能を持ち、その作動状態を記録する装置を備えたもので、この自動運行装置を使い公道を走行することも「運転」と決められた。この定義が追加されたことで、レベル3の自動運転ができるようになった。
(2)自動運行装置を使う運転者の義務
自動運転中に車種ごとに定められている条件から外れてシステムから警報が鳴るなどした場合は、直ちに運転者は通常の運転に戻らなければならないため、直ちに通常の運転に戻れないと考えられる飲酒や居眠りは認められていない。自動運転中に事故・違反があったとしても、必ずしも運転者が免責されるとはかぎらない。
(3)作動状態記録装置による記録を義務付け
車両の保有者等は自動運行装置の作動状態を記録し保存することが義務付けられる。道路交通法令に反する動きをしたことなどを現場の警察官が認めた場合に自動運行装置が作動中か否かを確認することで、交通の危険の防止などに役立てられる。警察官から記録の提示を求められた場合には、この記録を提示する必要がある。

ドローン

ドローンに関する法律
ドローン規制単独の法律は存在せず、最も重要な法令は航空法(国土交通省)と小型無人機等飛行禁止法(警察庁)。

航空法の規制空域
(A)空港等の周辺の上空の空域、(B)緊急用務空域、(C)150m以上の高さの空域、(D)人口集中地区の上空を規制対象としこれらの空域でドローンを飛行させる場合には国土交通大臣の許可を要すると定めている。

航空法により禁止・遵守が求められる規制

飲酒時の操縦禁止アルコールまたは薬物の影響により正常な飛行ができないおそれがある間は、ドローンの飛行は禁止される(飲酒時の操縦禁止)
飛行前点検の遵守飛行に支障がないこと、その他飛行に必要な準備が整っていることを確認した後でなければ無人航空機を飛行させることはできない(飛行前点検の遵守)。
衝突予防の遵守無人航空機を飛行させるに当たっては、航空機・他の無人航空機との衝突を予防する措置を採ることが求めらる(衝突予防の遵守)。
危険な飛行の禁止飛行上の必要がないのに高調音を発し、急降下するなど他人に迷惑を及ぼすような飛行方法は禁止(危険な飛行の禁止)。

国土交通大臣の承認を要する規制

⑤夜間飛行の禁止(日中での飛行)ドローンを安全に飛行させるためには、見通しのきかない夜間よりも日中の飛行が望ましい。国土交通大臣の承認がない限りドローンの夜間飛行を禁止している(夜間飛行)。
⑥目視外飛行の禁止(目視の範囲内)ドローンの位置と周囲の状況を把握する上で、自分の目で把握することが望ましい。国土交通大臣の承認がない限り、目視できない状況下でのドローン飛行を禁止している(目視外飛行)。
⑦30m未満の飛行の禁止(距離の確保)ドローンと人・物件との距離が近くなればなるほど、衝突の危険性は高まるため、国土交通大臣の承認がない限り、人又は物との距離が30m未満に接近するドローンの飛行を禁止しています(30m未満の飛行)。
⑧催し場所での飛行禁止多数の人が集まる催しが開かれている場所でのドローンの飛行は、人との接触の危険性も、落下により人に危害を及ぼす危険性も高まる。国土交通大臣の承認がない限り、多数の人が集まる催しの上空でのドローンの飛行についても禁止している(イベント上空飛行)。
⑨危険物輸送の禁止ドローンが危険物を輸送する場合、危険物の漏出や危険物の爆発によるドローンの墜落という危険を伴う。国土交通大臣の承認がない限り、ドローンで危険物を輸送することを禁止している(危険物輸送)。
⑩物件投下の禁止ドローンから物件を投下する場合、下にいる人へぶつけたり、ドローン自体がバランスを崩して墜落したりする恐れがある。国土交通大臣の承認がない限り、ドローンから物件を投下する行為についても禁止している(物件投下)。
レベル1 無人、有人地帯を目視内での操縦による飛行可能見える範囲で手動操作する一般的なドローン利用の形態を指す。農薬散布や映像コンテンツのための空撮、橋梁や送電線といったインフラ点検などがこのレベルに該当する
レベル2無人、有人地帯を目視内での自律飛行可能見える範囲で自動運転機能を活用した飛行を行うものを指す。例としては、空中写真測量やソーラーパネルの設備点検などが挙げられる
レベル3無人地帯を目視外での操縦による飛行と自律飛行可能(補助者の配置なし)住民や歩行者らがいないエリアにおいて目の届かない範囲まで飛行する形態を指す。離島や山間部への荷物配送、被災状況の調査、行方不明者の捜索、長大なインフラの点検、河川測量などがこれに該当する。
レベル4有人地帯を目視外での操縦による飛行と自律飛行可能(補助者の配置なし)有人地帯(第三者上空)、市街地などを含めたエリアにおいて目の届かない範囲まで飛行する形態を指す。都市の物流や警備、発災直後の救助、避難誘導、消火活動の支援、都市部におけるインフラ点検などがレベル4として考えられる。

ロボティクス

ロボティクス
ロボティクスとは「制御などのロボットに関する一連の研究分野」の総称で、機械学習技術の導入が進んでいる。
ロボットの動作制御ではモンテカルロ法やQ学習などの強化学習が利用されている。

一気通貫学習
ロボットの一連動作を1つのDNNで実現させるための学習方法。

マルチモーダル
人間の五感や平衡感覚、空間感覚などの複数の感覚情報を組み合わせて処理することをマルチモーダル情報処理という。

ロボットの不法行為責任
AIを搭載したロボットが危害を加えてしまった場合、AIそれ自体に不法行為責任を負わせることは難しく、責任はAIの所有者になると考えられる。所有者に民法上の不法行為責任が認められるたには所有者に故意または過失という要件が必要。
製造物責任法第3条に基づく法的責任が認められるための要件として「欠陥」がある。

完全自律型兵器(LAWS)
2018年に、KAISTらがAI を活用した自律型兵器の開発などを推進していると発表している。2019年、ジュネーブにおいてLAWSに関する特定通常兵器使用禁止制限条約(CCW)の政府専門家会合(GGE)が開催され、今後の議論の進め方を含む報告書案がコンセンサスでまとまった。2021年には特定通常兵器使用禁止制限条約(CCW)の枠組みにおけるLAWSに関する政府専門家会合(GGE)が開催されることに加え、11項目からなるLAWSに関する指針について一致した。日本でもLAWS は軍事分野で銃の発明、核兵器の開発に続く第三の革命になるとして「国際人道法や倫理上の観点から到底看過できない」 と政府に対して警鐘を鳴らす学者などの意見が発表されている。
完全自律型兵器とは①HUman on the Loop weapons(ロボットが標的を選択し攻撃できるが、人間がロボットの動作を無効にできる)、②Human out of the Loop Weapons(ロボットが人間の命令や関与なしに標的を選択し攻撃できる)と定義されている。