📝 試験項目
  • 基本的なモデルの選択基準、評価方法並びに評価指標を理解する
  • 訓練誤差と汎化誤差の違いを説明できる
  • データの量や目的に応じて、汎化性能を推定する検証方法を適切に選択できる
  • 汎化性能の悪化につながる代表的な現象を列挙・説明できる
  • モデルの適用環境、ビジネス課題、並びに目的に応じて、適切な評価指標・モデルを選択できる
  • モデルの複雑さを上げることによるメリットデメリットを理解した上で、モデル選択の指針を説明できる
🏷️ 主要キーワード
#k-分割交差検証#平均二乗誤差#二乗平均平方根誤差#平均絶対値誤差#ROC曲線#AUC#赤池情報量規準(AIC)#オッカムの剃刀#過学習#交差検証#偽陽性#偽陰性#混同行列#正解率#適合率#再現率#F値#汎化性能#真陽性#真陰性#ベイズ情報量規準(BIC)#ホールドアウト検証 ---

1. 基本的なモデルの選択基準、評価方法並びに評価指標を理解する

💡 ポイント
  • モデルの選択は機械学習タスクの重要な決定であり、複雑さと性能のバランスが鍵となる。過度に複雑なモデルは過学習のリスクがあり、「オッカムの剃刀」の原則に基づきシンプルなモデルが望ましい。情報量基準(AICやBIC)を用いてモデルの複雑さを適切に選択することが可能である。
  • データの扱いにおいて、未知のデータに対する予測能力を測るため、交差検証が重要となる。ホールドアウト検証やk分割交差検証などの方法があり、データ量に応じて適切な手法を選択する。場合によっては訓練・検証・テストの3つにデータを分割することもある。
  • 評価指標は問題の種類や目的に応じて選択する必要がある。回帰問題ではMSE、RMSE、MAEなどが用いられ、分類問題では正解率、適合率、再現率、F値などが使用される。2クラス分類問題ではROC曲線とAUCも重要な指標となり、モデルの総合的な性能を評価する。

機械学習におけるモデル選択は、タスクの成功に大きく影響する重要な過程です。多様なモデルが存在し、同じ手法でも複雑さを調整できる場合があります。例えば、決定木では深さを変えることで表現力を調整できます。複雑なモデルは難しいタスクに対応できる可能性が高まりますが、同時に「過学習」のリスクも高まります。過学習とは、データのノイズまで学習してしまう状態を指します。また、モデルの複雑化に伴い、学習に必要な計算量も増加します。この課題に対処するための考え方として「オッカムの剃刀」があります。これは「ある事象を説明する際には、必要以上に多くの仮定を立てるべきではない」という原則です。つまり、同等の性能であればより単純なモデルを選択すべきだという指針です。

モデルの複雑さを適切に選ぶための指標として、情報量基準があります。代表的なものに赤池情報量基準(AIC)とベイズ情報量基準(BIC)があります。これらはモデルの予測性能とパラメータ数のバランスを考慮し、過度に複雑なモデルを避けるのに有用です。モデルの評価において、データの扱い方は非常に重要です。評価の目的は未知のデータに対する予測能力を測ることですが、実際には未知のデータを用意することはできません。そこで、手元のデータを工夫して使用します。一般的な方法は、データを「訓練データ」と「テストデータ」に分割することです。訓練データでモデルを学習し、テストデータで性能を評価します。この方法を「交差検証」と呼びます。

交差検証には主に2つの方法があります。

  • ホールドアウト検証:データを1回だけ訓練データとテストデータに分割します。
  • k分割交差検証:データを複数回異なる方法で分割し、それぞれで学習と評価を行います。

データ量が少ない場合は、k分割交差検証がより適しています。これは、1回の分割では偶然テストデータに対する性能が良くなる可能性があるためです。モデルの性能を数値化するために、様々な評価指標が使用されます。問題の種類や目的に応じて、適切な指標を選択する必要があります。

回帰問題の主な評価指標には以下があります。

  • 平均二乗誤差(MSE):各データポイントの予測誤差を二乗し、平均を取ったもの。
  • 二乗平均平方根誤差(RMSE):MSEの平方根。元のデータと同じ単位で誤差を表現する。
  • 平均絶対誤差(MAE):各データポイントの予測誤差の絶対値の平均。

これらの指標は値が小さいほど、モデルの性能が高いことを示します。

予測: 陽性 (Positive) 予測: 陰性 (Negative)
実際: 陽性 真陽性 TP (True Positive) 偽陰性 FN (False Negative)
実際: 陰性 偽陽性 FP (False Positive) 真陰性 TN (True Negative)

注: TP/TN が正解セル、FP/FN が誤りセルに対応する。

表1 混同行列の構成

分類問題の主な評価指標は以下の通りです。

  • 正解率(Accuracy):全データのうち、正しく分類されたデータの割合。
  • 適合率(Precision):陽性と予測したもののうち、実際に陽性だった割合。
  • 再現率(Recall):実際に陽性のもののうち、陽性と予測できた割合。
  • F値:適合率と再現率の調和平均。両者のバランスを考慮した指標。
指標 (英) 直感的意味 重視される場面
正解率 (Accuracy) (TP + TN) / (TP + TN + FP + FN) 全データ中、正しく分類できた割合 クラス分布が均衡な場合
適合率 (Precision) TP / (TP + FP) 陽性と予測したうち、実際に陽性だった割合 誤検出を減らしたい (例: スパムメール検出)
再現率 (Recall) TP / (TP + FN) 実際に陽性のうち、陽性と予測できた割合 見逃しを減らしたい (例: 不良品検出・医療診断)
F値 (F1) 2 × Precision × Recall / (Precision + Recall) 適合率と再現率の調和平均 両者のバランスを取りたい
表2 主要な分類評価指標と式

これらの指標は、問題の性質に応じて使い分けます。例えば、不良品検出のような場合、見逃しを減らすことが重要なので再現率が重視されます。2クラス分類問題では、ROC曲線とAUCも重要な評価指標です。ROC曲線は、分類の閾値を変化させたときの真陽性率(TPR)と偽陽性率(FPR)の関係を示すグラフです。

ROC曲線とAUCの関係横軸FPR、縦軸TPRの正方形プロット。対角線がランダム予測(AUC=0.5)、左上に膨らむS字が高性能モデル、曲線下の面積をAUCとして半透明で塗りつぶし。ROC曲線とAUC完全予測 (0,1)0.00.20.40.60.81.00.00.20.40.60.81.0偽陽性率 (FPR)真陽性率 (TPR)高性能モデルランダム予測AUC領域AUC=曲線下の面積左上に近いほど高性能
図1 ROC曲線とAUCの関係

AUCはROC曲線下の面積を表し、モデルの総合的な性能を1つの数値で示します。AUCは0から1の値をとり、1に近いほどモデルの性能が高いことを意味します。完全にランダムな予測では0.5となります。

2. 訓練誤差と汎化誤差の違いを説明できる

💡 ポイント
  • 訓練誤差と汎化誤差は、機械学習モデルの性能を評価する上で重要な指標となる。
  • 訓練誤差はモデルが学習データに対してどれだけ適合しているかを示し、汎化誤差は未知のデータに対する予測能力を表す。
  • 両者にはトレードオフの関係があり、過学習を防ぎつつ適切なバランスを取ることがモデル構築の鍵となる。

訓練誤差とは

機械学習モデルの性能を評価する上で、訓練誤差は重要な指標の一つです。これは、モデルが学習に使用したデータセット(訓練データ)に対する予測の正確さを表します。具体的には、モデルが訓練データに対して行った予測と実際の値との差を測定したものです。例えば、動物の画像を使って犬とオオカミを識別するモデルを考えてみましょう。10,000枚の画像を使ってこのモデルを訓練したとします。この10,000枚の画像に対するモデルの予測精度が、訓練誤差となります。

汎化誤差とは

一方、汎化誤差は、モデルが未知のデータ(テストデータ)に対してどの程度正確に予測できるかを示す指標です。これは、モデルが学習したパターンを新しいデータに適用する能力を表しています。先ほどの例で言えば、訓練に使用しなかった2,000枚の新しい動物の画像に対するモデルの予測精度が汎化誤差となります。この指標は、モデルが実際の運用環境でどの程度の性能を発揮できるかを予測する上で非常に重要です。

訓練誤差と汎化誤差の関係

理想的には、訓練誤差と汎化誤差の両方が低いモデルが望ましいです。しかし、現実にはこの2つの誤差には複雑な関係があることがあります。モデルが訓練データに対して過度に適合してしまう「過学習」(オーバーフィッティング)という現象が起こることがあります。過学習が起きると、訓練誤差は非常に小さくなりますが、汎化誤差は大きくなってしまいます。例えば、99%という高い正解率で訓練データを分類できても、テストデータに対しては50%程度の正解率しか得られないような場合、そのモデルは過学習を起こしている可能性が高いと考えられます。

3. データの量や目的に応じて、汎化性能を推定する検証方法を適切に選択できる

💡 ポイント
  • データを訓練・検証・テストの3種に分割し、過学習を防ぎつつ未知データへの性能を適切に評価する。
  • 交差検証には主にホールドアウト検証とk分割交差検証があり、前者は実装が容易だが評価の偏りに注意が必要、後者はより信頼性が高いが計算コストがかかる。
  • 適切な検証方法の選択には、データ量、計算コスト、モデルの複雑さ、タスクの重要性などを考慮する必要がある。

データの分割

モデルの評価を行うには、まず手元にあるデータを適切に分割する必要があります。一般的には、データを以下の3つに分けます。

  • 訓練データ:モデルの学習に使用するデータ
  • 検証データ:学習途中でモデルの性能を確認し、調整するためのデータ
  • テストデータ:最終的なモデルの性能を評価するためのデータ
図2 訓練・検証・テストの3分割データセットを訓練60%・検証20%・テスト20%に分割し、それぞれの用途を示す図訓練・検証・テストの3分割全データセット訓練データ (60%)Training検証 (20%)Validationテスト (20%)Testモデルの学習パラメータ (重み) の最適化ハイパーパラメータ調整・モデル選択最終的な汎化性能評価テストデータは最終評価まで使わない比率は一例。データ量・タスクに応じて変動
図2 訓練・検証・テストの3分割

この分割により、モデルが訓練データに過度に適合してしまう「過学習」を防ぎ、未知のデータに対する性能を適切に評価できます。

交差検証

データの量が限られている場合、単純にデータを分割するだけでは十分な評価ができない可能性があります。そこで用いられるのが「交差検証」という方法です。交差検証には主に2種類あります。

  1. ホールドアウト検証 ホールドアウト検証は、データを訓練用とテスト用に分割し、1回だけ評価を行う方法です。実装が簡単で計算コストが低いため、大規模なデータセットや計算時間が問題になる場合によく使われます。しかし、この方法にはデメリットもあります。データの分割方法によっては、偶然テストデータに対する評価が良くなってしまう可能性があります。特にデータ量が少ない場合、この問題が顕著になります。 2. k分割交差検証 k分割交差検証は、データをk個のグループに分け、そのうちの1つをテストデータ、残りを訓練データとして使用します。これをk回繰り返し、平均的な性能を評価します。この方法の利点は、すべてのデータを少なくとも1回はテストデータとして使用できることです。これにより、データの偏りによる影響を軽減し、より信頼性の高い評価が可能になります。ただし、k回の学習と評価を行うため、計算コストが高くなる点には注意が必要です。

図3 k-分割交差検証の手順k=5の例で訓練データとテストデータを順次入れ替え、評価結果を平均する手順を示す図k-分割交差検証 (k=5)データ分割 (5ブロック)評価結果Iter 1Acc = 0.85Iter 2Acc = 0.82Iter 3Acc = 0.88Iter 4Acc = 0.86Iter 5Acc = 0.84平均 Acc = 0.85訓練データテストデータすべてのデータが1回ずつテストデータになるk回の評価結果を平均してモデル性能とする数値は説明用ダミー値 (実データではない)
図3 k-分割交差検証の手順

適切な検証方法の選択

どの検証方法を選ぶべきかは、以下の要素を考慮して決定します。

  • データの量:少量の場合はk分割交差検証が適しています。
  • 計算コスト:時間や資源に制約がある場合は、ホールドアウト検証を検討します。
  • モデルの複雑さ:複雑なモデルほど過学習のリスクが高いため、より厳密な評価が必要です。
  • タスクの重要性:重要な意思決定に使用されるモデルには、より信頼性の高い評価方法を選びます。

4. 汎化性能の悪化につながる代表的な現象を列挙・説明できる

💡 ポイント
  • 機械学習モデルの汎化性能は、学習に使用していないデータに対する予測精度を表す重要な指標である。
  • 過学習は汎化性能を低下させる代表的な現象で、モデルが訓練データに過度に適合し、未知のデータへの対応力が落ちる状態を指す。
  • 汎化性能の評価には交差検証が用いられ、適切なモデル選択には情報量基準が活用されるなど未知データへの対応力向上には様々な工夫が必要となる。

汎化性能とは、モデルが学習に使用していないデータに対してどの程度正確に予測できるかを示すものです。つまり、モデルが新しい状況にどれだけ上手く対応できるかを表しています。しかし、モデルの学習過程では様々な要因により汎化性能が低下することがあります。その代表的な現象が過学習(オーバーフィッティング)です。過学習は、モデルが訓練データに過度に適合してしまい、未知のデータに対する予測精度が下がってしまう状態を指します。例えば、10,000枚の画像を使って学習したモデルが、その画像に対しては99%の正解率を示すものの、新しい2,000枚の画像に対しては50%の正解率しか得られないような場合が過学習の典型例です。過学習の主な原因の一つは、モデルの複雑さにあります。

必要以上に複雑なモデルを使用すると、訓練データのノイズまで学習してしまい、データの本質的なパターンを見逃してしまう可能性があります。これは「オッカムの剃刀」という考え方に反します。オッカムの剃刀とは、ある事象を説明する際には、必要以上に多くの仮定を立てるべきではないという指針です。汎化性能を適切に評価するために、交差検証という手法が広く用いられています。交差検証には主に2種類あります。1つ目はホールドアウト検証で、データをあらかじめ訓練用と評価用に分割して学習と評価を行います。2つ目はk分割交差検証で、データを複数の部分に分け、それぞれで学習と評価を繰り返します。これらの方法を使うことで、モデルが未知のデータに対してどの程度の性能を発揮できるかを推定することができます。

また、モデルの複雑さを適切に選択するための指標として、情報量基準が活用されています。代表的なものに赤池情報量規準(AIC)とベイズ情報量規準(BIC)があります。これらの指標は、モデルの予測精度とパラメータ数のバランスを考慮しており、過度に複雑なモデルに対してペナルティを与えます。汎化性能を向上させるためには、適切なモデルの選択、十分なデータ量の確保、そして過学習を防ぐための正則化技術の適用など、様々な工夫が必要です。機械学習を実践する際には、常に汎化性能を意識し、モデルが未知のデータに対してどれだけ適切に対応できるかを考慮することが大切です。

5. モデルの適用環境、ビジネス課題、並びに目的に応じて、適切な評価指標・モデルを選択できる

💡 ポイント
  • モデルの性能評価には、適切なデータ分割と交差検証が不可欠である。
  • 評価指標は課題の性質に応じて選択し、回帰問題ではMSEやRMSE、分類問題では正解率や適合率、再現率、F値などを用いる。
  • 適切なモデル選択にはタスクの複雑さとデータ特性を考慮し、過学習に注意しつつ、最終的にはビジネス課題の本質的目的に基づいて判断する必要がある。

モデルの評価には適切なデータの扱いが重要です。一般的に、データは訓練データ、検証データ、テストデータの3つに分けられます。訓練データでモデルを学習させ、検証データで調整を行い、最後にテストデータで最終的な評価を行います。この方法は交差検証と呼ばれ、モデルの汎化性能を確認するのに効果的です。評価指標の選択は、取り組む課題の性質によって異なります。回帰問題では、平均二乗誤差(MSE)や二乗平均平方根誤差(RMSE)がよく使用されます。これらの指標は、予測値と実際の値の差を数値化したものです。分類問題では、正解率、適合率、再現率、F値などの指標が使われます。例えば、医療診断のような重要な判断を伴う場合、見逃しを最小限に抑えるために再現率を重視することがあります。一方、スパムメール検出のような場合は、誤検出を減らすために適合率を重視する場合もあります。

また、ROC曲線とAUCも分類問題の評価に有用です。ROC曲線は、閾値を変化させたときの真陽性率と偽陽性率の関係を示すグラフです。AUCはこの曲線下の面積を表し、モデルの総合的な性能を1つの数値で示します。適切なモデルの選択には、タスクの複雑さとデータの特性を考慮する必要があります。単純な線形関係を持つデータには線形回帰が適している可能性がありますが、複雑な非線形関係を持つデータにはより高度なモデル、例えばランダムフォレストやサポートベクターマシンが適している可能性があります。ただし、モデルを複雑にすれば必ずしも良い結果が得られるわけではありません。過度に複雑なモデルは過学習を起こし、テストデータでの性能が低下する可能性があります。

このバランスを取るために、情報量基準(AICやBIC)を参考にすることもあります。最終的に、モデルの選択と評価は、ビジネス課題の本質的な目的に立ち返って判断する必要があります。技術的な指標だけでなく、実際のビジネス価値や運用コストなども考慮に入れることが大切です。

6. モデルの複雑さを上げることによるメリットデメリットを理解した上で、モデル選択の指針を説明できる

💡 ポイント
  • モデルの複雑化は難しい課題への対応力を高めるが、計算量増加や過学習のリスクも伴う。
  • 単純すぎるモデルはデータの本質を捉えられず、適切な複雑さの選択が重要となる。
  • AICやBICなどの情報量基準を用いて、予測精度とパラメータ数のバランスを評価し最適なモデルを選択する。

モデルをより複雑にすることで、難しい課題に対応できる可能性が高まります。しかし、複雑さを増すことには利点と課題の両方があります。モデルの複雑さを上げることで、データの細かな特徴をより捉えやすくなります。これにより、複雑なパターンや関係性を学習し、より高度な予測や分類が可能になることがあります。

一方で、モデルの複雑さを上げることには課題もあります。まず、計算量が増加します。これは処理時間の長期化やコストの上昇につながる可能性があります。また、過度に複雑なモデルは「過学習」のリスクが高まります。過学習とは、モデルが学習データの細かな特徴やノイズまで学習してしまう状態を指します。過学習が起こると、学習データに対しては非常に高い精度を示しますが、新しいデータに対する予測精度が低下してしまいます。逆に、モデルが単純すぎる場合も問題があります。単純なモデルはデータの本質的な特徴を捉えきれず、予測精度が低くなる可能性があります。このため、適切な複雑さのモデルを選ぶことが非常に重要になります。モデル選択の指針として、情報量基準という指標がよく用いられます。

代表的なものに赤池情報量規準(AIC)とベイズ情報量規準(BIC)があります。これらの指標は、モデルの予測精度とパラメータ数のバランスを評価します。パラメータ数が多すぎる、つまり複雑すぎるモデルにはペナルティが課されるため、適度な複雑さのモデルが選ばれやすくなります。AICとBICは似た指標ですが、使い分けに明確な基準はありません。ただし、BICはデータ数が多い場合に、より強くモデルの複雑さにペナルティを課す傾向があります。モデル選択の際には、これらの指標を参考にしつつ、問題の性質や利用可能なリソース、求められる精度などを総合的に考慮することが大切です。


キーワード解説

k-分割交差検証
データをk個のブロックに分割し、それぞれのブロックを一度ずつテストデータとして使用する。残りのk-1個のブロックは訓練データとして用いる。全体でk回の検証が行われる。この手法はクロスバリデーションとも呼ばれ、各ブロックでの評価結果の平均を取ることでモデルの汎化性能を評価する。教師データが少ない場合やデータの分布が偏っている場合に特に有用で、ホールドアウト法よりも厳密な評価が可能。ただし、計算コストが高い場合がある。
平均二乗誤差
平均二乗誤差(MSE:Mean Squared Error)は、モデルの予測値と実測値の差を二乗し、その平均をとることで計算される指標である。これは回帰分析や機械学習のモデル評価で広く使用されており、誤差を明確に定量化できる点で有用だ。誤差を二乗することで、正負の差異にかかわらず誤差が全て正の値として評価されるため、外れ値の影響を受けやすい。
二乗平均平方根誤差
二乗平均平方根誤差(RMSE:Root Mean Squared Error)は、MSEの平方根を取ったもので、元のデータと同じ単位で誤差を測定できる特徴がある。これは、MSEが大きいほど分散が広がっている場合に適用されることで誤差の解釈がしやすくなる。MSEよりも外れ値の影響を抑えつつも、全体の誤差傾向を反映しやすい指標として使用されることが多い。
平均絶対値誤差
平均絶対値誤差(MAE:Mean Absolute Error)は、予測値と実測値の差の絶対値を平均したものであり、誤差の方向に関係なく、誤差が線形に評価されるため外れ値に対する影響が小さくなる。これにより、MAEはより「実際の誤差幅」を表す指標とされ、過度な外れ値が存在する場合や、比較的リニアな誤差評価が求められる際に適している。
ROC曲線
視覚的にモデル性能を捉えることができる指標。横軸にFPR=FP/(FP+TN)、縦軸にTPR=TP/(TP+FN)を取り、閾値を0から1に変化させていった際の値をプロットして得られる曲線。2クラス分類で閾値を0から1に変化させていった場合に、予測の当たり外れがどのように変化していくのかを表す。
AUC
ROC曲線より下部(右部)で囲まれる面積のこと。AUC(0〜1)が1に近いほどモデル性能が高いことを表す。特にクラスの不均衡がある場合でも比較的ロバストな評価が可能。ただし、偽陽性と偽陰性のコストが大きく異なる状況では、他の評価指標も併用することが推奨される。
赤池情報量規準
赤池情報量規準(AIC:Akaike's Information Criterion)は、統計モデリングで使用される一般的な手法で、特に機械学習の分野でも頻繁に使われる。モデル設計の際にどれくらいモデルを複雑にすればよいのかを決定するための指標であり、モデルの複雑さと予測精度のバランスを評価するもの。具体的には、AIC = -2logL + 2k の公式で計算される。ここで、Lはモデルの尤度(likelihood)、kはモデルのパラメータ数。-2logLはモデルがデータにどれだけ適合していないかを測定する項であり、これが小さい(モデルがデータによく適合している)ほど望ましい。一方で、2kはモデルの複雑さを表す項で、多くのパラメータを持つモデルはこの値が大きくなる。複雑なモデルは過学習(overfitting)のリスクが高くなるため、AICはそのバランスを取るように設計されている。AICが低いモデルは、予測精度と複雑さのバランスがよいとされる。
オッカムの剃刀
「ある事柄を説明するためには、必要以上に多くを仮定するべきでない」という哲学的な指針。この考え方は、機械学習でもしばしば採用される。具体的には、過学習(Overfitting)を防ぐために、よりシンプルなモデルが好まれる場合が多い。過学習とは、モデルが訓練データに対して高すぎる精度で適合し、新しいデータに対する予測性能が落ちる現象を指す。シンプルなモデルは、必要な情報だけを用いて予測を行い、不必要な仮定や複雑さを排除する傾向がある。
過学習
学習時に訓練誤差が小さい一方で、新しい未知のデータに対する汎化誤差が小さくならない状態。この状態では、モデルは訓練データに対して高い性能を示すが、新しいデータに対しては効果的でない。つまり、訓練データに過度に最適化されてしまっている。対比される現象として未学習(underfitting)があり、これはモデルが訓練データに対しても、新しい未知のデータに対しても低い性能しか示さない状態であり、正則化が過度である場合や、モデルの複雑性が不足している場合に発生する。これにより全体の汎化性能(予測性能)が低下する。
交差検証
汎化性能を評価する統計的な手法で、データセットを複数のサブセットに分割し、それぞれのサブセットでモデルの訓練と評価を行う。具体的には、データを「訓練セット」と「テストセット」に分割し、訓練セットでモデルを訓練して、テストセットでその性能を評価する。このプロセスを各サブセットで繰り返し、最終的に得られた性能評価の平均値や分散などを用いて、モデルの汎化性能を推定する。
偽陽性
混同行列における分類結果の一種で、実際には陰性(負例)であるデータを誤って陽性(正例)と予測したケースを指す。英語ではFalse Positive(FP)と呼ばれ、第一種の過誤とも言われる。例えば「犬」「猫」の画像分類問題において、実際は「猫」の画像を「犬」と予測した場合がこれに該当する。スパムメール検出では正常なメールを誤ってスパムと判定する場合に相当し、利用者にとって本来必要な情報を見逃させる原因となるため、適合率(precision)の評価において重要な指標となる。
偽陰性
混同行列における分類結果の一種で、実際には陽性(正例)であるデータを誤って陰性(負例)と予測したケースを指す。英語ではFalse Negative(FN)と呼ばれ、第二種の過誤とも言われる。例えば「犬」「猫」の画像分類問題において、実際は「犬」の画像を「猫」と予測した場合がこれに該当する。医療診断における疾病の見逃しなど、重大な結果を招く可能性がある場面では特に注意が必要であり、再現率(recall)の評価において重要な指標となる。
真陽性
混同行列における分類結果の一種で、実際に陽性(正例)であるデータを正しく陽性と予測したケースを指す。英語ではTrue Positive(TP)と呼ばれる。例えば「犬」「猫」の画像分類問題において、実際は「犬」の画像を「犬」と正しく予測した場合がこれに該当する。適合率、再現率、F値といった分類問題の評価指標を計算するうえでの基本要素であり、ROC曲線における真陽性率(TPR=TP/(TP+FN))の算出にも用いられる。
真陰性
混同行列における分類結果の一種で、実際に陰性(負例)であるデータを正しく陰性と予測したケースを指す。英語ではTrue Negative(TN)と呼ばれる。例えば「犬」「猫」の画像分類問題において、実際は「猫」の画像を「猫」と正しく予測した場合がこれに該当する。正解率(TP+TN)/(TP+TN+FP+FN)の計算において真陽性とともに用いられ、ROC曲線における偽陽性率(FPR=FP/(FP+TN))の算出にも関係する。
混同行列
機械学習や統計の分野で、分類モデルの性能を評価するために用いられる行列。実際のクラスと予測されたクラスの組み合わせを集計し、真陽性(TP)、偽陽性(FP)、偽陰性(FN)、真陰性(TN)の4つの値で表す。例として「犬」「猫」の画像分類問題(犬の画像100枚、猫の画像100枚)では、「犬」と予測して正しかった数(TP)が90枚、「犬」と予測して間違った数(FP)が10枚、「猫」と予測して正しかった数(TN)が85枚、「猫」と予測して間違った数(FN)が15枚といった形で集計される。混同行列を用いることで、正解率、適合率、再現率、F値などの各種評価指標を導出することができる。
正解率
正解率(Accuracy)は、全データのうち、正しく分類されたデータの割合を示す指標である。混同行列を用いて表現すると、(TP+TN)/(TP+TN+FP+FN)で計算される。全データ中、どれだけ予測が当たったかの割合を示す直感的な指標だが、クラスの不均衡がある場合には適切でないことがある。
適合率
適合率(Precision)は、陽性と予測したもののうち、実際に陽性だった割合を示す指標である。混同行列を用いて表現すると、TP/(TP+FP)で計算される。誤検出を減らすことが重要な場面、例えばスパムメール検出のような場合に重視されることが多い。
再現率
再現率(Recall)は、実際に陽性のもののうち、陽性と予測できた割合を示す指標である。混同行列を用いて表現すると、TP/(TP+FN)で計算される。見逃しを減らすことが重要な場面、例えば不良品検出や医療診断のような場合に重視されることが多い。
F値
F値(F measure)は、適合率と再現率の調和平均であり、2 × Precision × Recall / (Precision + Recall) で計算される。適合率のみあるいは再現率のみで判断すると、予測が偏っているときも値が高くなってしまうので、両者のバランスを考慮した指標としてF値を用いることも多い。
汎化性能
汎化性能とは、機械学習モデルが訓練データだけでなく、未見のテストデータに対しても高い予測精度を持つ能力のことを指す。この性能はモデルの実用性を大きく左右する因子であり、過学習や未学習を避けるために重要。具体的には、モデルが訓練データに対して高い精度を持つだけでなく、その設計やパラメータが新たなデータに対しても柔軟に適応できるようになっている状態を指す。検証データやクロスバリデーションを用いて評価されることが多い。
ベイズ情報量規準
ベイズ情報量規準(Bayesian Information Criterion、BIC)は統計モデルの評価基準の一つで、データの説明力とモデルの複雑さのバランスを考慮して最適なモデルを選択するために使われる。BICの計算式は、モデルの尤度を示す項とパラメータ数に依存するペナルティ項で構成され、データ数が多くなるほど複雑なモデルに対して強いペナルティがかかるようになっている。BICは候補モデルの中に「真のモデル」が含まれているという仮定に基づくため、特定の状況でより適したモデル選択が可能になるとされる。この規準は、大規模なデータセットでシンプルなモデルを優先するため、過剰適合を避ける傾向がある点でAIC(赤池情報量規準)と異なる。BICは、特にデータの観測数が増えたときにパラメータ数を増やした場合に、モデルが複雑になるほど厳しい評価を与える。
ホールドアウト検証
教師データの一部を「テストデータ」として分離し、残りを「訓練データ」として学習を行う。この方法は、モデルの汎化性能を評価する一般的な手法である。訓練データで学習した後、テストデータでモデルの性能を評価することで、未知のデータに対するモデルの反応を推測できる。ただし、この手法はデータが少ない場合や偏っている場合には不適切な結果を生む可能性がある。一般的には、データを訓練セットとテストセットに分割する際の比率は、例えば70:30、80:20などとされることが多い。