解説
[1]
欠測の有無(指標変数 \(H\))は、\(Y_1\) の値のみによって決まるため、\(Y_1\) の値が固定されていれば、その人が高血圧群かどうかの情報は \(Y_2\) の期待値に影響を与えない。
これを数式で表すと以下のようになる。
\[E(Y_{2i} \mid Y_{1i} = y_1, H_i = 1) = E(Y_{2i} \mid Y_{1i} = y_1)\]
つまり、「1回目の値が同じであれば、高血圧群であっても非高血圧群であっても、2回目の期待値は同じ回帰直線上にある」 と言える。
従って、観測されたデータ(\(H=1\))だけで推定した回帰式は、全体に対しても妥当なものとなる。
[2]
回帰係数の推定値 \(\hat{\beta}\) は、ベクトル \(\mathbf{x}_i = (1, Y_{1i})^T\) を用いて以下のように書ける。
\[\hat{\beta} = \left( \sum_{i=1}^n H_i \mathbf{x}_i \mathbf{x}_i^T \right)^{-1} \sum_{i=1}^n H_i \mathbf{x}_i Y_{2i}\]
ここで、\(\mathbf{Y}_1\) と \(\mathbf{H}\) を与えた条件付き期待値をとると、(1)の性質により \(E(Y_{2i} \mid \mathbf{x}_i, H_i = 1) = \mathbf{x}_i^T \beta\) となるため、数式を展開すると \(\beta\) が導かれる。
期待値の繰り返し公式を適用することで、最終的に \(E(\hat{\beta}) = \beta\) となり、不偏性がある。
[3]
これは「回帰代入法」と呼ばれる手法である。
サンプル平均 \(\hat{\mu}_2\) は、観測値と代入値の混合平均である。。
\[\hat{\mu}_2 = \frac{1}{n} \left( \sum_{i=1}^n H_i Y_{2i} + \sum_{i=1}^n (1 – H_i) \hat{Y}_{2i} \right)\]
この期待値をとると、\(\mathbf{Y}_1\) の情報が活用されるため、最終的に母集団平均 \(\mu_2 = E(Y_{2i})\) と一致する。
つまり、「1回目の測定結果(共変量)を使って補完すれば、2回目の平均も正しく推定できる」 ということを意味している。
[4]
補完に使ったデータ点は、すべて「元の回帰直線上」に完璧に乗っている。
新しい推定量を求めるための残差平方和を最小化しようとしても、補完した点(第2項目)の残差は
\(\beta = \hat{\beta}\) のときに \(0\) となる。
\[\min_{\beta} \left\{ \sum_{\text{obs}} (Y_{2i} – \mathbf{x}_i^T \beta)^2 + \sum_{\text{mis}} (\hat{Y}_{2i} – \mathbf{x}_i^T \beta)^2 \right\}\]
従って、代入を行っても新しい情報は追加されておらず、推定量そのものは変化しない。


コメント