このシリーズではE資格対策として、シラバスの内容を項目別にまとめています。
ガウス分布の概要
ガウス分布の概要
ガウス分布、または正規分布は、統計学と確率論における最も重要な連続確率分布の一つであり、自然現象や社会科学の多くの現象に適用することができます。その形は鐘形曲線(ベルカーブ)としても知られています。
ガウス分布は以下の数式で定義されます:
$$
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{ – \frac{(x-\mu)^2}{2\sigma^2} }
$$
ここで、μは平均値、σ^2は分散で、これらは分布のパラメーターとして働きます。平均値μは分布の中心を決定し、分散σ^2は分布の広がり具合、つまりデータが平均値からどれくらい散らばっているかを示します。
日常生活におけるガウス分布の一例として、大学の成績分布を考えてみましょう。講義ごとに学生の成績が平均値(例えば、学年全体での平均テストスコア)を中心に、ある範囲(例えば、全学生のスコアの標準偏差)に分布しているとします。
ここでは、成績の分布はガウス分布に従います。この場合、平均値μは平均テストスコア、分散σ^2はテストスコアの散らばり具合を表します。分布はμを中心とし、σの範囲に大部分のデータ(約68%)が含まれます。
このガウス分布の特性は、学生がどの程度の頻度で特定のスコア範囲に達するかを予測するためのツールとして使われます。また、全体の成績分布を観察し、学生たちの学習進度や、教材の効果性を評価するための重要な指標にもなります。
ガウス分布のグラフ
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
mu = 0
variance = 1
sigma = np.sqrt(variance)
x = np.linspace(mu - 3.5*sigma, mu + 3.5*sigma, 100)
plt.plot(x, stats.norm.pdf(x, mu, sigma))
plt.title('Gaussian Distribution (mu=0, sigma^2=1)')
plt.show()
ガウス分布の尤度関数と最尤推定量
あるデータセット
$$\mathbf{X} = {x_1, x_2, …, x_n}$$
が与えられたとき、そのデータセットが同一のガウス分布から生成されたと仮定します。このときの尤度関数は以下のように定義されます:
$$
\begin{aligned} L(\mu, \sigma^2 | \mathbf{X}) &= \prod_{i=1}^{n}f(x_i|\mu, \sigma^2) \\ &=
\frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2\right) \end{aligned}
$$
最尤推定量とは、尤度関数を最大化するパラメータの値を求めるものです。つまり、最尤推定は以下のパラメータを探します:
$$
\hat{\mu}, \hat{\sigma^2} = \arg\max_{\mu, \sigma^2} L(\mu, \sigma^2 | \mathbf{X})
$$
通常、尤度関数は対数尤度関数(尤度関数の対数)を最大化する形で解かれます。これは、対数を取ることにより積が和に変換され、計算が簡単になるからです。
対数尤度関数を最大化すると、ガウス分布の最尤推定量は以下のようになります:
$$
\hat{\mu} = \frac{1}{n}\sum_{i=1}^{n}x_i, \quad \hat{\sigma^2} = \frac{1}{n}\sum_{i=1}^{n}(x_i – \hat{\mu})^2
$$
すなわち、平均値の最尤推定量は標本平均、分散の最尤推定量は標本分散となります。
まとめ
最後までご覧いただきありがとうございました。