【G検定】サポートベクターマシン(SVM)

【G検定まとめ】要点整理＆当日用カンペの項目別詳解ページです。

詳細な知識や実装は試験には必ずしも必須ではありませんが、試験対策として理解を深めたい方はぜひ最後までご覧ください。

G検定まとめはこちら

サポートベクターマシン(SVM)

サポートベクターマシン (SVM) は、分類と回帰分析に使用される教師あり機械学習アルゴリズムです。SVM の背後にある基本的な考え方は、入力データ内のクラスを最もよく分離する超平面 (高次元空間内の直線または平面) を見つけることです。

バイナリ分類問題では、SVM は 2 つのクラス間のマージンを最大化する超平面を見つけます。これは、超平面と各クラスの最も近いデータポイントとの間の距離です。超平面に最も近いデータポイントはサポートベクターと呼ばれるため、アルゴリズムの名前が付けられています。

最適な超平面を見つけるために、SVM は制約付き最適化問題を解こうとします。この問題の目的は、マージンが最大化されるという制約に従って分類誤差を最小化することです。最適化問題は二次計画問題として定式化でき、逐次最小最適化 (SMO) や勾配降下法などのさまざまなアルゴリズムを使用して解くことができます。

パラメータの調整

サポートベクターマシン（SVM）では、パラメータを調整することで、境界面の形やマージンの幅を変えることができます。主なパラメータは以下の２つです。

カーネル関数：カーネル関数とは、データを高次元空間に写像する関数です。カーネル関数によって、線形分離できないデータも非線形分離できるようになります。カーネル関数には、線形カーネル、多項式カーネル、ガウシアンカーネル（RBFカーネル）、シグモイドカーネルなどがあります。
ペナルティパラメータ：ペナルティパラメータとは、マージン内に入ってしまったデータ点（誤分類点）に対する罰則の強さを表すパラメータです。ペナルティパラメータが大きいほど、誤分類点を許容しないように境界面が決まります。ペナルティパラメータはCやεなどの記号で表されることが多いです。
これらのパラメータは、交差検証やグリッドサーチなどの方法で最適化することができます。

カーネル関数

カーネル関数とは、非線形なデータを高次元空間に写像して線形分離可能にするための関数です。カーネル関数にはさまざまな種類がありますが、代表的なものとして以下のようなものがあります。

線形カーネル：内積をそのまま用いる最も単純なカーネル関数です。線形分離可能なデータに適しています。
シグモイドカーネル：ロジスティック回帰と同じシグモイド関数を用いるカーネル関数です。非線形分離可能なデータに適していますが、パラメータの調整が難しいです。
多項カーネル：内積を多項式で拡張したカーネル関数です。非線形分離可能なデータに適していますが、次数を高くすると過学習しやすくなります。
RBF（動径基底）カーネル：ガウス関数を用いるカーネル関数です。非線形分離可能なデータに最もよく使われるカーネル関数ですが、ガウス幅のパラメータの調整が重要です。
利用するカーネル関数によって得られる決定境界の様子が変わります。

ペナルティパラメータ

ペナルティパラメータとは、サポートベクターマシンの学習時に、誤分類されたデータに対してどれだけのペナルティ（罰則）を与えるかを決めるパラメータです12。ペナルティパラメータは一般にCと表記されます。

ペナルティパラメータCの値が大きいと、誤分類されたデータに対して厳しいペナルティを与えることになります。その結果、決定境界が複雑になり、訓練データに対して高い精度を得られますが、過学習（未知のデータに対応できなくなる現象）しやすくなります。

逆に、ペナルティパラメータCの値が小さいと、誤分類されたデータに対して寛容なペナルティを与えることになります。その結果、決定境界が単純になり、訓練データに対して低い精度を得られますが、過学習しにくくなります。

したがって、ペナルティパラメータCは適切な値を設定する必要があります。一般的な方法としては、交差検証（cross-validation）やグリッドサーチ（grid-search）という手法を用いて最適な値を探索します。

サポートベクターマシンのメリット・デメリット

サポートベクターマシン（SVM）のメリットは以下の通りです。

汎化性能が高い：サポートベクターマシン（SVM）では、マージン最大化という考え方に基づいて境界面を決めるため、未知のデータに対しても高い精度で分類できます。
少ない教師データで学習できる：サポートベクターマシン（SVM）では、境界面を決めるのに必要なデータ点（サポートベクトル）だけを使って学習するため、教師データが少なくても効率的に学習できます。
非線形分離も可能：サポートベクターマシン（SVM）では、カーネル関数というテクニックを使って、線形分離できないデータも非線形分離できるようになりますカーネル関数は様々な種類があり、データの特徴に合わせて選択できます。

サポートベクターマシン（SVM）のデメリットは以下の通りです。

計算量が大きい：サポートベクターマシン（SVM）では、学習データが増えることで計算量が膨大になり、学習が非効率化する可能性があります. また、パラメータの最適化やカーネル関数の選択も計算コストがかかります。
多クラス分類や回帰問題への応用が難しい：サポートベクターマシン（SVM）は元々２値分類問題に用いられる手法です。多クラス分類や回帰問題へ応用する場合は、別途工夫や拡張が必要です. 例えば、多クラス分類では一対一法や一対他法という方法を使います。

サポートベクターマシンの使用例

サポートベクトルマシンは、汎化性能や応用分野の広さから、データ分析の現場でよく用いられる機械学習のアルゴリズムです。主に2値分類問題に用いられますが、多クラス分類や回帰問題への応用も可能です。

サポートベクトルマシンの使用例としては、以下のようなものがあります。

画像認識：手書き文字や顔などを識別するためにサポートベクトルマシンを用いることができます。特徴量としては、画像のピクセル値やエッジなどを使います。
テキスト分類：ニュース記事やレビューなどをカテゴリーに分けるためにサポートベクトルマシンを用いることができます。特徴量としては、単語や文書の頻度などを使います。
異常検知：正常なデータと異常なデータを区別するためにサポートベクトルマシンを用いることができます。特徴量としては、データの統計的な性質や距離などを使います。
回帰予測：数値データの傾向や関係性を捉えて未来の値を予測するためにサポートベクトルマシンを用いることができます。特徴量としては、データ自体やその変換などを使います。

G検定学習法

最後までご覧いただきありがとうございました。

当サイトではG検定に役立つ情報をまとめています。

ぜひご覧ください。

参考書籍

①教科書として使用する書籍

体系的に知識を整理することができます。

まずは、この１冊を読んでG検定の学習を進めましょう。

検索機能が使用できるので、Kindle版が特におすすめです。

②問題集として使用する書籍

ある程度学習が進んだら、本番を意識して問題集に取り組みましょう。

本番の試験環境を意識して、このページ「要点整理＆当日用カンペ」を使用しながら解答してみましょう。

カテゴリー: G検定、資格

タグ: G検定

サポートベクターマシン(SVM)