このシリーズではE資格対策として、シラバスの内容を項目別にまとめています。

【E資格】シラバスでみるE資格の試験内容(E2022#2〜)

今回の記事ではシラバスをもとにE資格の試験内容について紹介します。 詳細は以下のリンクからご確認ください。 https://www.jdla.org/certificate/engineer/ 1.応用数…

ベルヌーイ分布の概要

ベルヌーイ分布は、結果が二つしかない試行の結果を表すのによく使われます。例えば、コインを投げて裏か表が出るかを予測する場合に使用します。この場合、「表」を「成功」、そして「裏」を「失敗」とみなすことができます。

ここで、成功(つまりコインが表になる)の確率をpとしましょう。コインは公正なものとすると、表が出る確率は1/2つまり0.5となります。この場合、ベルヌーイ分布は以下のように定義されます:

  • 表(成功)の確率:P(X=1) = p = 0.5
  • 裏(失敗)の確率:P(X=0) = 1 – p = 0.5

ここで、Xは試行の結果を表すランダム変数です。つまり、コインを投げたときに表が出る(X=1)か裏が出る(X=0)かの確率は、いずれも0.5であると表現できます。これはベルヌーイ分布の一例です。

実際の問題では、試行の結果が二つの場合にベルヌーイ分布を適用することが多いです。例えば、ある商品を購入するかどうか、メールがスパムかどうか、患者がある病気を持っているかどうかなど、成功と失敗を二つの結果としてモデル化することが可能です。

ベルヌーイ分布の期待値と分散

ベルヌーイ分布の期待値と分散について解説します。

期待値: 期待値とは、試行結果の平均的な値であり、ある変数の”平均”を指します。ベルヌーイ分布における期待値は成功の確率 p そのものとなります。なぜなら、成功(X=1)と失敗(X=0)の二つしかないからです。期待値 E(X) は次のように定義されます。

$$
E[X] = 0 \cdot (1 – p) + 1 \cdot p = p
$$

分散: 分散は確率変数のばらつき度合いを測る指標で、データの散らばり具合を示します。ベルヌーイ分布における分散 Var(X) は以下のように定義されます:

$$
Var[X] = E[(X – E[X])^2] = \sum [(x – E[X])^2 \cdot P(X = x)] =
$$

$$
[0 – p]^2 \cdot (1 – p) + [1 – p]^2 \cdot p = p \cdot (1 – p)
$$

ベルヌーイ分布の期待値と分散

尤度関数: それぞれのデータ$x_i$がベルヌーイ分布に従い、成功する確率がpであるとします。このとき、$x_i$が1である確率はp、0である確率は1-pです。データが独立であるという仮定から、n個のデータについて尤度関数を定義すると、次のようになります:

$$
L(p; D) = \prod_{i=1}^{n} p^{x_i} (1 – p)^{1 – x_i}
$$

ここで、$x_i$はデータDの各要素で、$x_i = 1$(成功)あるいは$x_i = 0$(失敗)です。

  1. 最尤推定量: 尤度関数を最大化するパラメータpを求めることで、データからパラメータpを推定します。これを最尤推定と呼びます。尤度関数は積の形をしているので、対数を取って和の形にすると扱いやすくなります。これを対数尤度関数と呼びます:

$$
\log L(p; D) = \sum_{i=1}^{n} \left[ x_i \log(p) + (1 – x_i) \log(1 – p) \right]
$$

この対数尤度関数をpで微分し、その値が0となるpを求めると、pの最尤推定量が得られます。微分後の式を0に設定し、pについて解くと:

$$
\sum_{i=1}^{n} \frac{x_i}{p} – \sum_{i=1}^{n} \frac{1 – x_i}{1 – p} = 0
$$

これを解くと、最尤推定量は次のようになります:

$$
\hat{p} = \frac{1}{n} \sum_{i=1}^{n} x_i
$$

つまり、n個のデータ中で1となるデータの個数をnで割ったものが、成功確率pの最尤推定値となります。これは「1となるデータの割合」を求めることと等しいです。

まとめ

最後までご覧いただきありがとうございました。