【統計検定準１級】2021年6月論述問題問3【解答例・解説】

【統計検定準１級】2021年6月論述問題問2【解答例・解説】

解説（A）と（B）\(X=x_0\) が得られたときの二項分布の確率関数を \(p(X=x_0|n, \theta)\) とおくと、\よって、\(\theta\) の事後分布 \(f(\theta|x_0)\) は、\begin{eqnar...

解説

[1]

欠測の有無（指標変数 \(H\)）は、\(Y_1\) の値のみによって決まるため、\(Y_1\) の値が固定されていれば、その人が高血圧群かどうかの情報は \(Y_2\) の期待値に影響を与えない。

これを数式で表すと以下のようになる。

\[E(Y_{2i} \mid Y_{1i} = y_1, H_i = 1) = E(Y_{2i} \mid Y_{1i} = y_1)\]

つまり、「1回目の値が同じであれば、高血圧群であっても非高血圧群であっても、2回目の期待値は同じ回帰直線上にある」 と言える。

従って、観測されたデータ（\(H=1\)）だけで推定した回帰式は、全体に対しても妥当なものとなる。

[2]

回帰係数の推定値 \(\hat{\beta}\) は、ベクトル \(\mathbf{x}_i = (1, Y_{1i})^T\) を用いて以下のように書ける。

\[\hat{\beta} = \left( \sum_{i=1}^n H_i \mathbf{x}_i \mathbf{x}_i^T \right)^{-1} \sum_{i=1}^n H_i \mathbf{x}_i Y_{2i}\]

ここで、\(\mathbf{Y}_1\) と \(\mathbf{H}\) を与えた条件付き期待値をとると、(1)の性質により \(E(Y_{2i} \mid \mathbf{x}_i, H_i = 1) = \mathbf{x}_i^T \beta\) となるため、数式を展開すると \(\beta\) が導かれる。

期待値の繰り返し公式を適用することで、最終的に \(E(\hat{\beta}) = \beta\) となり、不偏性がある。

[3]

これは「回帰代入法」と呼ばれる手法である。

サンプル平均 \(\hat{\mu}_2\) は、観測値と代入値の混合平均である。。

\[\hat{\mu}_2 = \frac{1}{n} \left( \sum_{i=1}^n H_i Y_{2i} + \sum_{i=1}^n (1 – H_i) \hat{Y}_{2i} \right)\]

この期待値をとると、\(\mathbf{Y}_1\) の情報が活用されるため、最終的に母集団平均 \(\mu_2 = E(Y_{2i})\) と一致する。

つまり、「1回目の測定結果（共変量）を使って補完すれば、2回目の平均も正しく推定できる」 ということを意味している。

[4]

補完に使ったデータ点は、すべて「元の回帰直線上」に完璧に乗っている。

新しい推定量を求めるための残差平方和を最小化しようとしても、補完した点（第2項目）の残差は
\(\beta = \hat{\beta}\) のときに \(0\) となる。

\[\min_{\beta} \left\{ \sum_{\text{obs}} (Y_{2i} – \mathbf{x}_i^T \beta)^2 + \sum_{\text{mis}} (\hat{Y}_{2i} – \mathbf{x}_i^T \beta)^2 \right\}\]

従って、代入を行っても新しい情報は追加されておらず、推定量そのものは変化しない。

【統計検定準1級】独学合格への完全攻略ロードマップ｜過去問解説まとめ【解答例・解説】

過去問解説記事一覧2021年6月◼︎選択問題及び部分記述問題問1　問2　問3　問4　問5　問6　問7　問8　問9　問10　問11　問12◼︎論述問題問1　問2　問3　2019年6月◼︎選択問題及び部分記述問題問1　問2　問3　問4　問5　問...