【G検定】ロジスティック回帰

【G検定まとめ】要点整理＆当日用カンペの項目別詳解ページです。

詳細な知識や実装は試験には必ずしも必須ではありませんが、試験対策として理解を深めたい方はぜひ最後までご覧ください。

G検定まとめはこちら

ロジスティック回帰

線形回帰を分類問題に応用したアルゴリズム。対数オッズを重回帰分析により予測して、ロジスティック(シグモイド)関数で変換することで出力の正規化によって予測値を求めることで、最大確率を実現するクラスをデータが属するクラスと判定する。目的関数は尤度関数を用いる。ロジット変換を行うことで、出力値が正規化される。3種類以上の分類は、ソフトマックス関数を使う。

ロジスティック回帰とは

ロジスティック回帰とは、ベルヌーイ分布に従う変数の統計的回帰モデルの一種です。つまり、2値の結果（例えば、合格か不合格か、癌か正常かなど）が起こる確率を、いくつかの要因（説明変数）から説明・予測することができる手法です。ロジスティック回帰は一般化線形モデル (GLM) の一種でもあり、連結関数としてロジットと呼ばれる関数を使用します。

ロジスティック回帰モデルは、シグモイド関数とも呼ばれるロジスティック関数を使用して、予測変数の線形結合を 0 ～ 1 の確率値に変換します。この確率値は、応答変数が与えられた特定の値をとる可能性を表します。

ロジスティック回帰モデルをトレーニングするには、最尤推定や勾配降下法などの方法を使用して尤度関数を最大化することにより、モデルのパラメーター (係数) を推定します。モデルがトレーニングされると、予測変数の値を入力し、ロジスティック関数を使用して応答変数が特定の値をとる確率を計算することにより、新しいデータの予測に使用できます。

ロジスティック回帰のアルゴリズム

ロジスティック回帰のアルゴリズムは以下のような流れで行われます。

データの準備：分類したいデータを入力変数（説明変数）と出力変数（目的変数）に分けます。出力変数は0か1の2値になります。
モデルの構築：線形回帰の数式をシグモイド関数に入れて、出力が0から1の範囲になるようにします。このとき、重みとバイアスというパラメータを適当に初期化します。
学習：実際の出力と予測した出力の誤差（ロジスティック損失）を最小化するように、パラメータを更新していきます。この更新は勾配降下法やニュートン法などの最適化手法を使って行います。
評価：学習したモデルを新しいデータに適用して、その精度や性能を測定します。混同行列や正解率、適合率、再現率、F値などの指標が使われます。

ロジスティック回帰の使用例

ロジスティック回帰を使った例は、以下のようなものがあります。

マーケティングでは、商品の購入確率や広告のクリック確率などを予測するためにロジスティック回帰を用いることができます。
医療現場では、がんの発症確率や生存率、疾患の有無などを予測するためにロジスティック回帰を用いることができます。
心理学では、性格や嗜好などのカテゴリー変数に対する影響因子を分析するためにロジスティック回帰を用いることができます。
タイタニック号沈没事故では、ある乗客の生存確率を予測するためにロジスティック回帰を用いることができます。

これらの例では、目的変数は0か1で表される事象（購入したか否か、発症したか否か、生存したか否かなど）であり、説明変数は連続値やカテゴリー値で表される要因（年齢や性別、収入や教育水準など）です。ロジスティック回帰は、説明変数と目的変数の関係を確率という形で表現することができます。

ロジスティック回帰のメリット・デメリット

ロジスティック回帰のメリットは、以下のような点が挙げられます。

・説明変数の変化に対する目的変数の確率の変化を見やすくすることができます。
・説明変数が連続値でもカテゴリーでも扱えます。
・マーケティングの効果や商品購買など、確率という考え方から解析して今後の方策を考えるのに適しています。
・ロジスティック回帰のデメリットは、以下のような点が挙げられます。

ロジスティック回帰のデメリットは、以下のような点が挙げられます。

・目的変数が0か1で定義される事象でしか分析が難しいです。
・実施経験のないマーケティングや未知の商品など、過去のデータがない場合には予測することができません。
・市場調査やアンケートなどに基づいて分析する場合には、実際のマーケティング結果と乖離が生じる可能性があります。そのため、安易にターゲットを限定してしまうと販売機会を失うリスクが高くなります。

対数オッズとは

オッズの対数としても知られる対数オッズは、分析に便利な数学的形式でイベントが発生する確率を表す方法です。イベントのオッズは、イベントが発生する確率とイベントが発生しない確率の比率です。たとえば、イベントが発生する確率が 0.7 の場合、イベントが発生する確率は 0.7/(1-0.7) = 2.33 です。

対数オッズはオッズの自然対数であるため、イベントのオッズを O で表すと、対数オッズは次のようになります。

$$ln(O) = ln(p/(1-p))$$

ここで、p はイベントが発生する確率です。

対数オッズは、統計分析、特にロジスティック回帰でよく使用されます。これは、いくつかの望ましい特性があるためです。たとえば、対数オッズは、負の無限大から正の無限大までの任意の値を取ることができる連続変数であり、ゼロを中心に対称です。さらに、対数オッズが回帰モデルの従属変数として使用される場合、係数は発生するイベントの対数オッズに対する独立変数の効果として解釈できます。

G検定学習法

最後までご覧いただきありがとうございました。

当サイトではG検定に役立つ情報をまとめています。

ぜひご覧ください。

参考書籍

①教科書として使用する書籍

体系的に知識を整理することができます。

まずは、この１冊を読んでG検定の学習を進めましょう。

検索機能が使用できるので、Kindle版が特におすすめです。

②問題集として使用する書籍

ある程度学習が進んだら、本番を意識して問題集に取り組みましょう。

本番の試験環境を意識して、このページ「要点整理＆当日用カンペ」を使用しながら解答してみましょう。

カテゴリー: G検定、資格

タグ: G検定

ロジスティック回帰

ロジスティック回帰とは

ロジスティック回帰のアルゴリズム

ロジスティック回帰の使用例

ロジスティック回帰のメリット・デメリット

対数オッズとは

G検定学習法

本サイトの活用方法

【G検定2024最新】試験当日も使える! 187項目の要点整理＆試験対策カンペ【新シラバス対応】

G検定シラバス改訂の概要と変更のポイント

【G検定試験対策】理解度確認問題集全200問【直前対策】

【G検定まとめ2024】YouTube動画リスト（問題編）

【G検定まとめ2024】YouTube動画リスト（講義編）

【G検定まとめ2024】試験当日も使える! 要点整理＆試験対策カンペ【旧シラバス】

参考書籍

【G検定】線形回帰

【G検定】サポートベクターマシン(SVM)

【G検定】ロジスティック回帰

ロジスティック回帰

ロジスティック回帰とは

ロジスティック回帰のアルゴリズム

ロジスティック回帰の使用例

ロジスティック回帰のメリット・デメリット

対数オッズとは

G検定学習法

本サイトの活用方法

【G検定2024最新】試験当日も使える! 187項目の要点整理＆試験対策カンペ【新シラバス対応】

G検定シラバス改訂の概要と変更のポイント

【G検定試験対策】理解度確認問題集 全200問【直前対策】

【G検定まとめ2024】YouTube動画リスト（問題編）

【G検定まとめ2024】YouTube動画リスト（講義編）

【G検定まとめ2024】試験当日も使える! 要点整理＆試験対策カンペ【旧シラバス】

参考書籍

【G検定】線形回帰

【G検定】サポートベクターマシン(SVM)

【G検定試験対策】理解度確認問題集全200問【直前対策】