解説
[1]
(1) 推定値の算出
標準化された変数において、相関係数 \(r_{ij}\) と回帰係数の間には特定の関係がある。
各方程式の両辺に \(X_i\) を掛けて期待値をとることで、以下の連立方程式が得られる。
\(X_2\) の式より、
\[E[X_1 X_2] = \beta_{12} E[X_1^2] \implies r_{12} = \beta_{12}\]
与えられた相関行列より\(\hat{\beta}_{12} = 0.800\) である。
\(X_3\) の式より、
\[E[X_1 X_3] = \beta_{13} E[X_1^2] + \beta_{23} E[X_1 X_2] \implies r_{13} = \beta_{13} + \beta_{23} r_{12}\]
\[E[X_2 X_3] = \beta_{13} E[X_1 X_2] + \beta_{23} E[X_2^2] \implies r_{23} = \beta_{13} r_{12} + \beta_{23}\]
これに値を代入すると、
\begin{cases} 0.6 = \beta_{13} + 0.8 \beta_{23} \\ 0.7 = 0.8 \beta_{13} + \beta_{23} \end{cases}
これを解くと、\(\hat{\beta}_{13} = \frac{1}{9} \approx \mathbf{0.111}\)、\(\hat{\beta}_{23} = \frac{11}{18} \approx \mathbf{0.611}\) となる。
(2) 偏相関係数の算出
\(X_1\) の影響を除いた後の \(X_2\) と \(X_3\) の相関(偏相関係数 \(r_{23 \cdot 1}\))は、
\[r_{23 \cdot 1} = \frac{r_{23} – r_{12}r_{13}}{\sqrt{1-r_{12}^2}\sqrt{1-r_{13}^2}} = \frac{0.7 – 0.8 \times 0.6}{\sqrt{1-0.8^2}\sqrt{1-0.6^2}} = \frac{0.22}{0.6 \times 0.8} = \frac{0.22}{0.48} \approx \mathbf{0.458}\]
と求まる。
[2]
モデル2として、\(X_1\) のデータがない状態で \(X_3 = \gamma_{23}X_2 + \epsilon’_3\) を最小二乗法で推定した場合を考える。
このときの回帰係数の推定値 \(\hat{\gamma}_{23}\) は、\(X_2\) と \(X_3\) の相関係数 \(r_{23}\)(すなわち 0.7)に収束する。
しかし、本来知りたいのは \(X_1\) を制御した後の純粋な影響である \(\beta_{23}\)(約 0.611)である。
\(X_1\) は \(X_2\) と \(X_3\) の両方に影響を与える「共通の原因(交絡因子)」である。\(X_1\) をモデルから除外すると、\(X_1\) 経由の影響が \(X_2\) の効果として過大評価されてしまう(欠落変数バイアス)。
従って、\(\hat{\gamma}_{23}\) は \(\beta_{23}\) の推定値として不適切である。
具体的には、\(\gamma_{23} = \beta_{23} + \beta_{13} \beta_{12}\) という関係になり、\(\beta_{13} \beta_{12}\) の分だけバイアスが生じている。
[3]
\(X_1\) のデータがなくても、新しい変数 \(Z\)(プログラミング履修有無)を用いることで \(\beta_{23}\) を推定できる。
問題文の条件より、\(Z\) は \(X_1\) と無相関である(\(E[X_1|Z] = E[X_1] = 0\))という極めて重要な仮定がある。
モデル1の \(X_3\) に関する式は、
\[X_3 = \beta_{13}X_1 + \beta_{23}X_2 + \epsilon_3\]
であり、この式の \(Z\) による条件付き期待値をとると、
\[E[X_3 | Z] = \beta_{13} E[X_1 | Z] + \beta_{23} E[X_2 | Z] + E[\epsilon_3 | Z]\]
となる。
仮定より \(E[X_1 | Z] = 0\) および \(E[\epsilon_3 | Z] = 0\) なので、式は以下のように簡略化される。
\[E[X_3 | Z] = \beta_{23} E[X_2 | Z]\]
与えられたデータ(履修生 $Z=1$ の平均値)を用いると、
- \(E[X_3 | Z=1] = 0.2\)
- \(E[X_2 | Z=1] = 0.4\)
これを式に代入すると、
\[0.2 = \beta_{23} \times 0.4 \implies \beta_{23} = \mathbf{0.5}\]
(※未受講生 \(Z=0\) のデータを用いても、\(-0.4 = \beta_{23} \times (-0.8)\) より、同様に 0.5 が得られる。)
このように、交絡因子 \(X_1\) と独立な変数 \(Z\) が \(X_2\) にのみ影響を与える(または \(X_1\) を通さない経路で関係する)場合、それを利用して因果効果を抽出することが可能である。


コメント