このシリーズではE資格対策として、シラバスの内容を項目別にまとめています。

E資格まとめ

試験概要 ディープラーニングの理論を理解し、適切な手法を選択して実装する能力や知識を有しているかを認定する。 1.応用数学 (1)確率・統計 (2)情報理論 2.機…

パラメータノルムペナルティー

パラメータノルムペナルティは、機械学習のモデルで過学習(overfitting)を抑制するための一手法です。過学習とは、学習データに対してモデルが過度に適合し、新たなデータに対する予測性能が低下する現象を指します。これを防ぐため、パラメータノルムペナルティが用いられます。

具体的には、損失関数にパラメータのノルム(通常はL2ノルムまたはL1ノルム)を加えて新たな目的関数を定義し、この新たな目的関数を最小化する形で学習を進めます。このとき、ノルムの大きさに比例してペナルティが大きくなるため、パラメータが大きな値をとることが抑制され、過学習が防がれます。

代表的な手法にL2ノルムペナルティ(リッジ回帰)やL1ノルムペナルティ(ラッソ回帰)があります。

L2ノルムペナルティ(リッジ回帰)

概要

リッジ回帰は線形回帰モデルに対する正則化の一種で、モデルの過学習を防ぐために用いられます。通常の最小二乗法による線形回帰では、特徴量間の多重共線性や学習データに対する過剰な適合が問題になることがあります。リッジ回帰では、これらの問題を軽減するために、モデルのパラメータ(重み)に対してL2ノルムペナルティを課します。

具体的には、リッジ回帰の目的関数は次のようになります。

$$ J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_{\theta}(x^{(i)}) – y^{(i)})^2 + \frac{\lambda}{2m} \sum_{j=1}^{n} \theta_{j}^2 $$

この目的関数を最小化することで、パラメータの値を学習します。二項目のペナルティ項により、パラメータの大きさが抑制され、過学習を防ぎます。また、λはペナルティの強さを制御するハイパーパラメータで、この値を調整することでモデルの複雑さと過学習の抑制のバランスを取ります。

λが0の場合、リッジ回帰は通常の最小二乗法による線形回帰と等しくなります。一方、λが非常に大きな値になると、パラメータはほぼゼロに抑制され、モデルはデータにほとんど適合できなくなります。

リッジ回帰は、パラメータの大きさを制御し、モデルの予測性能を向上させる効果的な方法として広く用いられています。

L1ノルムペナルティ(ラッソ回帰)

概要

ラッソ回帰は、リッジ回帰と同様、線形回帰に対する正則化の一種で、モデルの過学習を防ぐ目的で使用されます。しかし、リッジ回帰がパラメータのL2ノルム(平方和)をペナルティとして使用するのに対し、ラッソ回帰はパラメータのL1ノルム(絶対値の和)をペナルティとして使用します。

ラッソ回帰の目的関数は次のように表現されます:

$$ J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_{\theta}(x^{(i)}) – y^{(i)})^2 + \frac{\lambda}{m} \sum_{j=1}^{n} |\theta_{j}| $$

ラッソ回帰の特徴的な性質は、いくつかのパラメータが厳密に0になる点です。これは特徴選択と呼ばれ、不要な特徴量(影響の少ない特徴量)を自動的に排除する効果があります。このため、ラッソ回帰は特徴選択が必要な場合や、スパースなモデル(大部分のパラメータが0であるモデル)を作りたい場合に有効な手法となります。

ただし、λの値によっては重要な特徴量まで排除してしまうこともありますので、適切なλの選択が重要となります。

まとめ

最後までご覧いただきありがとうございました。