統計学

【統計検定準1級】2018年6月 論述問題 問1【解答例・解説】

解説

[1]

(1) 推定値の算出

標準化された変数において、相関係数 \(r_{ij}\) と回帰係数の間には特定の関係がある。

各方程式の両辺に \(X_i\) を掛けて期待値をとることで、以下の連立方程式が得られる。

\(X_2\) の式より、

\[E[X_1 X_2] = \beta_{12} E[X_1^2] \implies r_{12} = \beta_{12}\]

与えられた相関行列より\(\hat{\beta}_{12} = 0.800\) である。

\(X_3\) の式より、

\[E[X_1 X_3] = \beta_{13} E[X_1^2] + \beta_{23} E[X_1 X_2] \implies r_{13} = \beta_{13} + \beta_{23} r_{12}\]

\[E[X_2 X_3] = \beta_{13} E[X_1 X_2] + \beta_{23} E[X_2^2] \implies r_{23} = \beta_{13} r_{12} + \beta_{23}\]

これに値を代入すると、

\begin{cases} 0.6 = \beta_{13} + 0.8 \beta_{23} \\ 0.7 = 0.8 \beta_{13} + \beta_{23} \end{cases}

これを解くと、\(\hat{\beta}_{13} = \frac{1}{9} \approx \mathbf{0.111}\)、\(\hat{\beta}_{23} = \frac{11}{18} \approx \mathbf{0.611}\) となる。


(2) 偏相関係数の算出

\(X_1\) の影響を除いた後の \(X_2\) と \(X_3\) の相関(偏相関係数 \(r_{23 \cdot 1}\))は、

\[r_{23 \cdot 1} = \frac{r_{23} – r_{12}r_{13}}{\sqrt{1-r_{12}^2}\sqrt{1-r_{13}^2}} = \frac{0.7 – 0.8 \times 0.6}{\sqrt{1-0.8^2}\sqrt{1-0.6^2}} = \frac{0.22}{0.6 \times 0.8} = \frac{0.22}{0.48} \approx \mathbf{0.458}\]

と求まる。

[2]

モデル2として、\(X_1\) のデータがない状態で \(X_3 = \gamma_{23}X_2 + \epsilon’_3\) を最小二乗法で推定した場合を考える。

このときの回帰係数の推定値 \(\hat{\gamma}_{23}\) は、\(X_2\) と \(X_3\) の相関係数 \(r_{23}\)(すなわち 0.7)に収束する。

しかし、本来知りたいのは \(X_1\) を制御した後の純粋な影響である \(\beta_{23}\)(約 0.611)である。

\(X_1\) は \(X_2\) と \(X_3\) の両方に影響を与える「共通の原因(交絡因子)」である。\(X_1\) をモデルから除外すると、\(X_1\) 経由の影響が \(X_2\) の効果として過大評価されてしまう(欠落変数バイアス)。

従って、\(\hat{\gamma}_{23}\) は \(\beta_{23}\) の推定値として不適切である。

具体的には、\(\gamma_{23} = \beta_{23} + \beta_{13} \beta_{12}\) という関係になり、\(\beta_{13} \beta_{12}\) の分だけバイアスが生じている。

[3]

\(X_1\) のデータがなくても、新しい変数 \(Z\)(プログラミング履修有無)を用いることで \(\beta_{23}\) を推定できる。

問題文の条件より、\(Z\) は \(X_1\) と無相関である(\(E[X_1|Z] = E[X_1] = 0\))という極めて重要な仮定がある。

モデル1の \(X_3\) に関する式は、

\[X_3 = \beta_{13}X_1 + \beta_{23}X_2 + \epsilon_3\]

であり、この式の \(Z\) による条件付き期待値をとると、

\[E[X_3 | Z] = \beta_{13} E[X_1 | Z] + \beta_{23} E[X_2 | Z] + E[\epsilon_3 | Z]\]

となる。

仮定より \(E[X_1 | Z] = 0\) および \(E[\epsilon_3 | Z] = 0\) なので、式は以下のように簡略化される。

\[E[X_3 | Z] = \beta_{23} E[X_2 | Z]\]

与えられたデータ(履修生 $Z=1$ の平均値)を用いると、

  • \(E[X_3 | Z=1] = 0.2\)
  • \(E[X_2 | Z=1] = 0.4\)

これを式に代入すると、

\[0.2 = \beta_{23} \times 0.4 \implies \beta_{23} = \mathbf{0.5}\]

(※未受講生 \(Z=0\) のデータを用いても、\(-0.4 = \beta_{23} \times (-0.8)\) より、同様に 0.5 が得られる。)

このように、交絡因子 \(X_1\) と独立な変数 \(Z\) が \(X_2\) にのみ影響を与える(または \(X_1\) を通さない経路で関係する)場合、それを利用して因果効果を抽出することが可能である。

 

 

コメント