- 知識表現とは何か説明できる
- エキスパートシステムとは何か説明できる
- 知識表現に係る代表的な研究や手法について理解する
- エキスパートシステムに係る代表的な研究や手法について理解する
1. 知識表現とは何か説明できる
- 知識表現はコンピュータが情報を扱いやすい形で知識を表現する方法であり、人工知能分野で重要な要素として注目されている。
- 1970年代から1980年代にかけて活発に研究が行われ、エキスパートシステムの開発が進められたが、知識獲得の困難さや常識的知識の扱いに課題があった。
- これらの課題に対応するため、意味ネットワークやオントロジーといった新しい知識表現方法が研究されるようになった。
知識表現は、コンピュータが情報を扱いやすい形で知識を表現する方法です。人工知能の分野において重要な要素の一つとして注目されています。1970年代から1980年代にかけて、知識表現の研究が活発に行われました。この時期、専門分野の知識をコンピュータに取り込み、その分野の専門家のように振る舞うプログラムの開発が進められました。これらのプログラムは「エキスパートシステム」と呼ばれています。
エキスパートシステムの代表例として、1970年代にスタンフォード大学で開発された「マイシン(MYCIN)」があります。マイシンは血液中のバクテリアを診断し、適切な抗生物質を処方する支援を行うシステムでした。500個のルールを使って、質問に答えていくことで感染した細菌を特定し、それに合った抗生物質を提案することができました。しかし、エキスパートシステムの開発には課題もありました。専門家から知識を引き出すのが難しく、また獲得した知識の数が増えると、矛盾や一貫性の問題が生じることがわかりました。さらに、常識的な知識は明文化されていないことが多く、コンピュータで扱うのが難しいという問題もありました。これらの課題に対応するため、コンピュータで知識を扱うための新しい方法が研究されるようになりました。その中で注目されたのが「意味ネットワーク」と「オントロジー」です。
意味ネットワークは、「概念」をラベル付きの点(ノード)で表し、概念間の関係を矢印(リンク)で結んだネットワークとして表現します。特に重要な関係として、「is-a(〜である)」と「part-of(〜の一部である)」があります。これらの関係を使うことで、知識の階層構造や全体と部分の関係を表現できます。オントロジーは、特定の分野の言葉の定義やその関連性を形式化し、それを使って新たな知識の創出や共有に役立てる方法です。オントロジーを使うことで、複数のシステムが自動的に情報を交換したり、新しい知識を発見したりすることができるようになります。
2. エキスパートシステムとは何か説明できる
- エキスパートシステムは専門家の知識をルール化し、特定分野で専門家並みの判断を行うプログラムである。
- 代表例のマイシン(MYCIN)は血液感染診断を行い、医師との対話形式で抗生物質を提案した。
- 知識獲得の困難さや柔軟性の欠如が課題となったが、人工知能の実用化に大きく貢献した。
エキスパートシステムは、特定分野の専門家の知識や経験を取り入れ、その分野の専門家のように動作するプログラムです。1970年代から1980年代にかけて開発された初期の人工知能システムの一つで、専門家の判断を模倣することを目指しています。エキスパートシステムの代表的な例として、スタンフォード大学で開発されたマイシン(MYCIN)があります。
マイシンは血液中のバクテリア感染を診断し、適切な抗生物質を処方するシステムでした。約500のルールを使用し、質問に順番に答えていくことで感染症の専門医のような判断を下すことができました。マイシンの特徴は、医師との対話形式で診断を進める点にありました。システムが質問を投げかけ、医師が患者の症状や検査結果を入力すると、マイシンはそれらの情報を基に推論を行い、感染症の原因となる細菌を特定し、適切な抗生物質を提案しました。エキスパートシステムの構築には、専門家からの知識獲得が重要です。しかし、専門家の持つ暗黙知を明示的なルールとして抽出することは難しく、これは「知識獲得のボトルネック」と呼ばれる問題となりました。また、知識ベースが大規模になると、ルール間の矛盾や一貫性の維持が困難になるという課題も浮かび上がりました。
エキスパートシステムは、特定の専門分野では高い性能を発揮しましたが、常識的な判断や柔軟な対応が必要な場面では限界がありました。それでも、人工知能の実用化に向けた重要な一歩として、その後の研究開発に大きな影響を与えました。現在では、機械学習や深層学習などの新しい技術の登場により、エキスパートシステムの重要性は相対的に低下しています。しかし、ルールベースのアプローチが有効な場面も依然として存在し、特に高い信頼性や説明可能性が求められる分野では今でも活用されています。
3. 知識表現に係る代表的な研究や手法について理解する
- エキスパートシステムと知識ベースは、1970年代に専門家の知識を模倣するプログラムとして開発された。MYCINのような成功例もあったが、暗黙知の獲得や大規模知識ベースの管理に課題があった。
- 意味ネットワークは概念間の関係を視覚的に表現し、「is-a」や「part-of」関係を用いて知識を構造化する手法である。
- オントロジーは知識の体系化と共有を目的とし、Cycプロジェクトのような一般常識のコンピュータ化や、ヘビーウェイト・ライトウェイトアプローチによる知識構築が行われている。
1970年代、専門家の知識をコンピュータに取り込み、専門家のように振る舞うプログラムが開発されました。これがエキスパートシステムです。代表的な例として、血液中のバクテリア診断を支援するMYCIN(マイシン)があります。MYCINは500のルールを持ち、質問に答えていくことで感染した細菌を特定し、適切な抗生物質を処方することができます。エキスパートシステムの開発には、専門家の知識を獲得し、知識ベースを構築する必要があります。しかし、この過程には多くの課題がありました。専門家の持つ暗黙的な知識を引き出すのが難しく、また知識ベースが大規模になると矛盾が生じたり、保守が困難になったりします。
意味ネットワーク
意味ネットワークは、概念をノードで表し、概念間の関係をリンクで結んだネットワークです。
この方法は、人間にとって直感的でわかりやすく、知識の検索も容易です。特に重要な関係として、「is-a」(〜である)と「part-of」(〜の一部である)があります。
「is-a」関係は継承関係を表し、下位概念は上位概念の属性を引き継ぎます。例えば、「動物は生物である」「哺乳類は動物である」という関係を表現できます。「part-of」関係は属性を表し、部分は全体の属性を引き継ぎます。例えば、「目は頭部の一部である」という関係を示すことができます。
オントロジー
オントロジーは、知識を体系化し、共有・再利用するための方法論です。人工知能の分野では、「概念化の明示的な仕様」と定義されています。オントロジーを使用することで、異なる人が記述した知識を統合し、活用することが可能になります。例えば、Cycプロジェクトでは、一般常識をコンピュータに取り込む試みが1984年から続けられています。「ビル・クリントンはアメリカ大統領の1人です」「すべての木は植物です」といった知識を形式的に記述しています。オントロジーの構築には、ヘビーウェイトアプローチとライトウェイトアプローチがあります。ヘビーウェイトアプローチは哲学的考察を重視し、時間とコストがかかります。一方、ライトウェイトアプローチは効率を重視し、データマイニングなどの技術を活用して自動的に知識を抽出します。
4. エキスパートシステムに係る代表的な研究や手法について理解する
- マイシンは1970年代にスタンフォード大学で開発された初期のエキスパートシステムで、血液中のバクテリアを診断し抗生物質を処方するシステムだった。
- 500の詳細なif-thenルールを使用し、ユーザーへの質問に基づいて診断を行い、その精度は69%で一般医師より高かったが専門医には及ばなかった。
- エキスパートシステムの開発では知識獲得や大規模知識ベースの管理が課題となり、これらは後の知識工学や機械学習の発展につながった。
初期のエキスパートシステム:マイシン
1970年代、スタンフォード大学でマイシン(MYCIN)が開発されました。このシステムは、血液中のバクテリアを診断し、適切な抗生物質を提案する目的で作られました。マイシンの特徴は、500の詳細なルールを使用していたことです。これらのルールは、「もし(if)このような条件が成り立つならば、そのとき(then)この結論が導かれる」という形式で記述されていました。
例えば、「もし感染の場所が血液で、細菌の形状が棒状であり、患者の症状が深刻ならば、その細菌は緑膿菌である」といったルールが含まれていました。診断の過程では、マイシンはユーザーに一連の質問を投げかけました。「培養はどこで行われましたか?」「細胞のグラム染色の結果は?」「細菌の形状は?」「患者の症状はどの程度ですか?」といった質問です。これらの回答を分析し、最も可能性の高い診断結果を導き出しました。マイシンの診断精度は69%で、一般の医師よりも高い精度を示しました。ただし、感染症の専門医の精度(80%)には及びませんでした。それでも、マイシンは医療分野におけるAIの可能性を示す重要な一歩となりました。
化学分野のエキスパートシステム:DENDRAL
マイシンに先立つ1960年代、スタンフォード大学ではDENDRALというエキスパートシステムが開発されていました。DENDRALは、未知の有機化合物を特定するためのシステムで、化学分野での人工知能の応用を示す先駆的な例となりました。
エキスパートシステム開発の課題
エキスパートシステムの開発過程で、研究者たちはいくつかの重要な課題に直面しました。特に難しかったのが、人間の専門家から知識を獲得する過程でした。専門家の持つ知識の多くは、長年の経験に基づく暗黙的なものであり、それを明確な形で表現することは容易ではありませんでした。また、専門家自身も自分の知識を言葉で説明することが難しい場合も多々ありました。この問題に対処するため、知的なインタビューシステムの研究も進められました。さらに、獲得した知識の数が数千、数万と増えていくにつれ、それらの知識の間で矛盾が生じたり、一貫性を保つことが難しくなったりする問題も発生しました。このため、大規模な知識ベースを効率的に管理し、保守する方法の開発が必要となりました。
エキスパートシステムの影響
エキスパートシステムの研究は、人工知能の分野に大きな影響を与えました。特に、知識の表現方法や推論の仕組みについて、多くの新しい考え方を生み出しました。また、エキスパートシステムの開発過程で直面した課題は、後の知識工学や機械学習の発展につながりました。例えば、知識獲得の難しさから、自動的に知識を学習する機械学習の重要性が認識されるようになりました。また、大規模な知識ベースの管理の必要性から、オントロジーなどの知識表現の研究が進展しました。エキスパートシステムは、特定の専門分野では人間に匹敵する、あるいはそれ以上の性能を示すことができました。しかし、人間のような柔軟な思考や常識的な推論を行うことは難しく、これらの限界を克服するための研究が今も続いています。
キーワード解説
- Cycプロジェクト
- すべての一般常識をデータベース化し(知識ベース)、人間と同等の推論システムを構築することを目的とするプロジェクト(ダグラス・レナート)。1984年から今も続いている。このプロジェクトの主な狙いは、機械に人間のような推論能力を持たせることで、知識処理や問題解決を効率化し、人間の判断や活動を支援することである。そのため、一般的な知識や常識を網羅的に収集し、データベース化することが重要な取り組みとなる。
- DENDRAL
- スタンフォード大学のエドワード・ファイゲンバウムが1960年代に開発した未知の有機化合物を特定するエキスパートシステム。このシステムは、専門家の知識を活用して複雑な化学構造を解析し、有機化合物の同定を行うことができた。1977年には実世界の問題に対する技術を重視した「知識工学」を提唱し、1970年代後半から1980年代にわたり多くのエキスパートシステムが開発された。
- is-aの関係
- is-a(「である」の関係)は、概念間の継承関係を表すもので、上位概念と下位概念の関係性を示している。例えば、「哺乳類」と「犬」の間にはis-aの関係が存在し、犬は哺乳類であるということを表現している。この関係は、概念階層を構築する際に重要な役割を果たす。is-aの関係には、推移律が必ず成立するという特徴がある。これは、ある概念が別の概念にis-aの関係で結ばれており、さらにその概念が別の概念にis-aの関係で結ばれている場合、最初の概念も最後の概念にis-aの関係で結ばれることを意味する。例として、「哺乳類 is-a 動物」および「人間 is-a 哺乳類」が成立する場合、「人間 is-a 動物」も自動的に成立する。
- has-aの関係
- has-a(「所有している」の関係)は、概念間の所有関係を表すもので、ある概念が別の概念を所有していることを示している。例えば、「頭部」と「目」の間にはhas-aの関係が存在し、頭部は目を所有しているということを表現している。この関係は、part-of関係とは真逆の関係性を持ち、全体が部分を所有しているという視点から捉えられる。意味ネットワークにおいて、has-aの関係は概念間の所有関係を明確に示すことができ、知識表現を構築する際に重要な役割を果たす。例として、「part-of」では「目は頭部の一部である」と表現される関係が、has-aでは「頭部は目を所有している」という形で表現され、これによって概念間の所有関係を適切に表現することができる。
- part-ofの関係
- part-of(「一部である」の関係)は、概念間の構成要素関係を表すもので、ある概念が別の概念の一部分であることを示している。例えば、「車」と「部品」の間にはpart-ofの関係が存在し、部品は車の一部であることが表現されている。この関係は、概念の構成や概念間の関係性を明確化する上で重要な役割を果たす。「part-of」の関係には、最低でも5つの関係が存在することがわかっており、これらの関係をコンピュータに理解させるのは非常に難しい課題であるが、これらの関係を適切に表現することで、知識の表現や推論が効率的に行えるようになる。
- Question-Answering
- Question-Answeringは、質問応答システムのことであり、ユーザーからの自然言語での質問を受け付け、解答を返すコンピュータソフトウェアを指す。このシステムは、自然言語処理や機械学習の技術を活用し、さまざまな情報源から知識を抽出し、質問に対する適切な回答を生成する。質問応答システムの代表例として、IBMが開発したワトソン君がある。
- 意味ネットワーク
- もともと認知心理学における長期記憶の構造モデルとして発案されたもので、人工知能分野においても重要な知識表現手法の1つとされている。この表現方法では、「概念」をラベル付きのノードで示し、概念間の関係をラベル付きのリンクで結んでいくことにより、ネットワーク形式で知識を表現する。意味ネットワークを利用することで、知識の構造化が容易になり、概念間の関係性を明確に示すことができる。また、概念をノードとして表現するため、情報の追加や変更が容易であり、柔軟な知識管理が可能となる。意味ネットワークを用いることで、知識の獲得や共有、再利用の課題に対処し、エキスパートシステムの限界を克服することが期待される。
- イライザ
- 1964年から1966年にかけてジョセフ・ワイゼンバウムによって開発されたコンピュータプログラム。(人工無能の元祖)相手の発言をあらかじめ用意されたパターンと比較し、パターンに合致した発言があった場合にはそのパターンに応じた発言を返答する。イライザは、単純なルールに基づいて会話を進めるため、実際には発言の意味を理解していない。しかし、その返答は人間らしいものであり、初期の自然言語処理技術の基礎を築いた。また、コンピュータのことを自分とコミュニケーションがとれる人間だと錯覚してしまうことをイライザ効果という。これは、人間の心理的な要素や認知の特性から生じるもので、コンピュータとの対話が人間との対話と似た形式をとることで引き起こされることが多い。特に、人工知能やチャットボットが発展し、より自然な会話ができるようになった現代では、イライザ効果がより顕著になっている。
- インタビューシステム
- 知識のデータベースを構築するためには、専門家・ドキュメント・事例などから知識を獲得する必要がある。ドキュメントや事例から知識を獲得するためには自然言語処理や機械学習という技術を利用することで取得可能であるが、最大の知識源である人間の専門家の知識は暗黙的であるため獲得は難しい場合が多い。そこで専門家が持つ知識を上手にヒアリングするインタビューシステムなどの研究が行われた。知識を共有する方法や再利用する方法も問題になり、そうした問題を解決するために意味ネットワークやオントロジーなどの研究が活性化した。
- ウェブマイニング
- ウェブサイトの構造やウェブ上のデータを解析して知識を取り出す。ウェブマイニングは主に3つのカテゴリに分類される。ウェブコンテンツマイニングは、ウェブページ上のテキストや画像、リンクなどの情報を解析し、新たな知識を抽出する。次に、ウェブ構造マイニングは、ウェブページ間のリンク構造を調査し、ページ同士の関係性や重要度を評価する。最後に、ウェブ利用マイニングは、ユーザーのウェブ閲覧履歴やクリックパターンなどの情報を解析し、ユーザーの興味や嗜好を把握する。ウェブマイニングは、検索エンジンの改善やパーソナライズされたコンテンツの提供、ウェブサイトの最適化、マーケティングや広告戦略の策定など、多岐にわたる分野で活用されている。
- オントロジー
- 本来は哲学用語で存在論(存在に関する体系的理論)という意味。人工知能の用語としては、トム・グルーバー(Tom Gruber)による「概念化の明示的な仕様」という定義が広く受入れられており、エキスパートシステムのための知識ベースの開発と保守にはコストがかかるという問題意識に端を発している。知識を記述する時に用いる「言葉(語彙)」や「その意味」、それらの関係性を共有できるように明確な約束事(仕様)として定義。オントロジーの研究が進むにつれ、知識を記述することの難しさが明らかになり、ヘビーウェイトオントロジー、ライトウェイトオントロジーという2つの流れが生まれた。
- セマンティックWeb
- Webページに記述された内容について、「情報についての情報」(いわゆるメタデータ)を一定の規則に従って付加し、コンピュータシステムによる自律的な情報の収集や加工を可能にする。情報リソースに意味を付与することでコンピュータにより高度な意味処理を実現することを目指す。セマンティックWebの目的は、情報を構造化し、コンピュータが理解しやすい形で提供することにより、人間とコンピュータが共同で情報を利用・共有できるようにすることである。これにより、情報検索やデータ分析、知識獲得などのタスクが効率化される。
- データマイニング
- 統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで、有用な知識を取り出す技術。データの前処理では、欠損値の補完や外れ値の処理、データの正規化などが行われる。次に、パターン抽出では、データから隠れたパターンや関連性を見つけ出す。最後に、評価・検証では、抽出されたパターンが実際に有用であるかを検証する。
- 東ロボくん
- 東大入試合格を目指す人工知能の研究・開発プロジェクトのことで、2016年にはほとんどの私立大学に合格できるレベルになった。国立情報学研究所が2011年から研究をスタートしたが、質問の意味を理解していないので読解力に問題があり、現在の技術では合格は難しいことから2016年に凍結された。
- マイシン
- 1970年代にスタンフォード大学で開発された、血液中のバクテリアの診断支援をするルールベースのプログラム。あたかも感染症の専門医のように振舞うことができ、このマイシンは、医師の専門知識や経験を基に作成されたルールセットを活用して、患者の症状や検査結果から適切な診断を導き出すことができた。初期のエキスパートシステムとして影響力を持っていた。
- ワトソン
- IBMが開発した質問応答システム・意思決定支援システムで、2011年、「ジョパディー」の歴代の人間チャンピオンに勝利した。Question-Answering(質問応答)という研究分野の成果であり、ウィキペディアの情報をもとにライトウェイトオントロジーを生成して解答する。質問の意味を理解して解答しているわけではなく、質問に含まれるキーワードと関連しそうな答えを高速に検索し、解答候補が質問との整合性や条件をどの程度満たしているかを複数の視点でチェックし総合点を算出して、一番高い総合点が得られた候補を解答として選択していた。IBMは開発当初、ワトソンを医療診断に応用するとしていたが、コールセンター、人材マッチング、広告、「シェフ・ワトソン」という新しい料理を考えることへの応用など幅広い分野で活用されている。
