【統計検定準１級】2018年6月選択問題及び部分記述問題問13【解答例・解説】

解説

目標分布は、2つの正規分布の混合分布である。

与えられた目標分布の確率密度関数 \(\pi(x)\) は、標準正規分布 \(N(0, 1)\) と、平均 6、分散 1 の正規分布 \(N(6, 1)\) を 1:3 の割合で足し合わせたものである。

標準正規分布の確率密度関数を \(\phi(x)\) とすると、\(N(6, 1)\) の確率密度関数は \(\phi(x-6)\) と表すことができる。

よって、目標分布の確率密度関数 \(\pi(x)\) は、

\[\pi(x) = \frac{1}{4}\phi(x) + \frac{3}{4}\phi(x-6)\]

となる。

メトロポリス・ヘイスティングス法における採択確率 \(\alpha(x^{(t)}, y)\) は問題文の通り、

\[\alpha(x^{(t)}, y) = \min \left( 1, \frac{\pi(y)}{\pi(x^{(t)})} \right)\]

である。

ここに先ほど求めた \(\pi(x)\) を代入すると、

\[(C) = \min \left( 1, \frac{\frac{1}{4}\phi(y) + \frac{3}{4}\phi(y-6)}{\frac{1}{4}\phi(x^{(t)}) + \frac{3}{4}\phi(x^{(t)}-6)} \right)\]

パラメータ \(a\) は、次の状態の候補 \(y\) を発生させる際の一様分布 \(U(-a, a)\) の幅を決める値（ステップ幅）である。この値の大小が、サンプリングの効率（混合の良さ）に大きく影響する。

各グラフの特徴と \(a\) の関係を考察する。

(ア) について
時系列プロットは適度に変動し、ヒストグラムも目標分布の2つの山（ 0 付近と 6 付近、面積比はおよそ 1:3 ）をきれいに再現できている。これはステップ幅が適切であり、状態空間全体を効率よく探索できていることを示している。よって、中間の \(a=1\) が該当する。
(イ) について
ステップ幅 \(a\) が大きすぎる（\(a=6\) のような）場合、現在位置から遠く離れた確率密度の低い場所が提案されることが多くなる。その結果、提案が棄却される（\(u \le \alpha\) を満たさない）確率が高くなり、状態が更新されず同じ値に留まることが増える。時系列プロットを見ると、(ア)に比べて密になりすぎており、ヒストグラムの形も少し荒くなっている（サンプリング効率が悪い）。したがって、\(a=6\) が該当する。
(ウ) について
時系列プロットを見ると、初期値 \(x^{(0)} = 6\) の周辺から値がほとんど動いておらず、もう一つの山である 0 付近へ遷移できていない。これは、ステップ幅 \(a\) が小さすぎるために、近傍しか探索できず局所解に陥っている状態を示しているよって、最も小さい \(a=0.1\) が該当する。

マルコフ連鎖が目標分布（定常分布）に収束するまでの初期のサンプルは、初期値の影響を強く受けており、目標分布からの正しいサンプルとはみなせないため。（これらの初期サンプルを破棄する期間をバーンイン期間と呼ぶ。）