統計学

【統計検定準1級】2016年6月 選択問題及び部分記述問題 問12【解答例・解説】

解説

[1]

(ア)の確率密度関数について

\[0.5N(-0.5, 1.0^2) + 0.5N(0.5, 1.0^2)\]

  • 重み:0.5 ずつであり、2つの分布の比重は等しい。
  • 分散:どちらも \(1.0^2 = 1.0\) であり、山の広がり具合は同じである。
  • 平均:-0.5 と 0.5 である。

標準偏差(1.0)に対して、2つの平均の差(1.0)が比較的小さいため、2つの山は明確に分離せず重なり合う。その結果、中央(\(x=0\) 付近)がなだらかな1つの山を形成する。図の中で左右対称な1つの山になっているのは (a) である。

(イ)の確率密度関数について

\[0.3N(-1.0, 1.0^2) + 0.7N(2.0, 0.5^2)\]

  • 第1項(左側の山):重みが 0.3 と小さく、分散が \(1.0^2\) と大きい。よって、\(x = -1.0\) を中心とした低くて広い山になる。
  • 第2項(右側の山):重みが 0.7 と大きく、分散が \(0.5^2\) と小さい。よって、\(x = 2.0\) を中心とした高くて鋭い山になる。

全体として、左側に小さな膨らみがあり、右側に高く鋭い山があるグラフになる。これに該当するのは (c) である。

従って、正解は である。

[2]

混合正規分布の確率密度関数は以下のように表される。

\[f(y_i) = \pi f_1(y_i) + (1 – \pi) f_2(y_i)\]

ここで、\(f_1(y_i), f_2(y_i)\) はそれぞれ \(N(\mu_1, 1.0^2), N(\mu_2, 1.0^2)\) の確率密度関数である。分散は 1.0 なので、

\(f_1(y_i) = \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{(y_i – \mu_1)^2}{2}\right)\)

となる(\(f_2\) も同様)。

E-step の更新式($\hat{\gamma}_i$)

\(\hat{\gamma}_i\) は「観測値 \(y_i\) が得られたという条件のもとで、それが群1(\(N(\mu_1, 1.0^2)\))から発生した事後確率」である(これを負担率と呼ぶ)。

ベイズの定理を用いると、事後確率は以下の式で計算できる。

\[\hat{\gamma}_i = \frac{\hat{\pi} f_1(y_i)}{\hat{\pi} f_1(y_i) + (1 – \hat{\pi}) f_2(y_i)}\]

この式にそれぞれの正規分布の確率密度関数を代入すると、定数部分の \(\frac{1}{\sqrt{2\pi}}\) は分母分子で約分されて消えるため、

\[\hat{\gamma}_i = \frac{\hat{\pi} \exp(-(y_i – \hat{\mu}_1)^2 / 2)}{\hat{\pi} \exp(-(y_i – \hat{\mu}_1)^2 / 2) + (1 – \hat{\pi}) \exp(-(y_i – \hat{\mu}_2)^2 / 2)}\]

となる。よって、正しい式は E3 である。

M-step の更新式($\hat{\pi}, \hat{\mu}_1$)

M-step では、E-step で求めた負担率 \(\hat{\gamma}_i\) を用いて、尤度(正確にはQ関数)を最大化するようにパラメータを更新する。

  • 混合比率 \(\hat{\pi}\) の更新:全データ \(n\) 個の中で、各データが群1に属する確率(負担率)の平均をとる。\[\hat{\pi} = \frac{1}{n} \sum_{i=1}^n \hat{\gamma}_i\]
    よって、正しい式は P1 である。
  • 群1の平均 \(\hat{\mu}_1\) の更新:単なる観測値の平均ではなく、各データが「どれくらい群1に属していそうか」という負担率 \(\hat{\gamma}_i\) を重みとした加重平均を計算する。\[\hat{\mu}_1 = \frac{\sum_{i=1}^n \hat{\gamma}_i y_i}{\sum_{i=1}^n \hat{\gamma}_i}\]
    よって、正しい式は M1 である。

従って、正解は ④ である。

 

 

コメント