【統計検定準１級】2018年6月論述問題問1【解答例・解説】

【統計検定準1級】独学合格への完全攻略ロードマップ｜過去問解説まとめ【解答例・解説】

過去問解説記事一覧2021年6月◼︎選択問題及び部分記述問題問1　問2　問3　問4　問5　問6　問7　問8　問9　問10　問11　問12◼︎論述問題問1　問2　問3　2019年6月◼︎選択問題及び部分記述問題問1　問2　問3　問4　問5　問...

解説

[1]

(1) 推定値の算出

標準化された変数において、相関係数 $r_{ij}$ と回帰係数の間には特定の関係がある。

各方程式の両辺に $X_i$ を掛けて期待値をとることで、以下の連立方程式が得られる。

$X_2$ の式より、

\[E[X_1 X_2] = \beta_{12} E[X_1^2] \implies r_{12} = \beta_{12}\]

与えられた相関行列より$\hat{\beta}_{12} = 0.800$ である。

$X_3$ の式より、

\[E[X_1 X_3] = \beta_{13} E[X_1^2] + \beta_{23} E[X_1 X_2] \implies r_{13} = \beta_{13} + \beta_{23} r_{12}\]

\[E[X_2 X_3] = \beta_{13} E[X_1 X_2] + \beta_{23} E[X_2^2] \implies r_{23} = \beta_{13} r_{12} + \beta_{23}\]

これに値を代入すると、

\begin{cases} 0.6 = \beta_{13} + 0.8 \beta_{23} \\ 0.7 = 0.8 \beta_{13} + \beta_{23} \end{cases}

これを解くと、$\hat{\beta}_{13} = \frac{1}{9} \approx \mathbf{0.111}$、$\hat{\beta}_{23} = \frac{11}{18} \approx \mathbf{0.611}$ となる。

(2) 偏相関係数の算出

$X_1$ の影響を除いた後の $X_2$ と $X_3$ の相関（偏相関係数 $r_{23 \cdot 1}$）は、

\[r_{23 \cdot 1} = \frac{r_{23} – r_{12}r_{13}}{\sqrt{1-r_{12}^2}\sqrt{1-r_{13}^2}} = \frac{0.7 – 0.8 \times 0.6}{\sqrt{1-0.8^2}\sqrt{1-0.6^2}} = \frac{0.22}{0.6 \times 0.8} = \frac{0.22}{0.48} \approx \mathbf{0.458}\]

と求まる。

[2]

モデル2として、$X_1$ のデータがない状態で $X_3 = \gamma_{23}X_2 + \epsilon’_3$ を最小二乗法で推定した場合を考える。

このときの回帰係数の推定値 $\hat{\gamma}_{23}$ は、$X_2$ と $X_3$ の相関係数 $r_{23}$（すなわち 0.7）に収束する。

しかし、本来知りたいのは $X_1$ を制御した後の純粋な影響である $\beta_{23}$（約 0.611）である。

$X_1$ は $X_2$ と $X_3$ の両方に影響を与える「共通の原因（交絡因子）」である。$X_1$ をモデルから除外すると、$X_1$ 経由の影響が $X_2$ の効果として過大評価されてしまう（欠落変数バイアス）。

従って、$\hat{\gamma}_{23}$ は $\beta_{23}$ の推定値として不適切である。

具体的には、$\gamma_{23} = \beta_{23} + \beta_{13} \beta_{12}$ という関係になり、$\beta_{13} \beta_{12}$ の分だけバイアスが生じている。

[3]

$X_1$ のデータがなくても、新しい変数 $Z$（プログラミング履修有無）を用いることで $\beta_{23}$ を推定できる。

問題文の条件より、$Z$ は $X_1$ と無相関である（$E[X_1|Z] = E[X_1] = 0$）という極めて重要な仮定がある。

モデル1の $X_3$ に関する式は、

\[X_3 = \beta_{13}X_1 + \beta_{23}X_2 + \epsilon_3\]

であり、この式の $Z$ による条件付き期待値をとると、

\[E[X_3 | Z] = \beta_{13} E[X_1 | Z] + \beta_{23} E[X_2 | Z] + E[\epsilon_3 | Z]\]

となる。

仮定より $E[X_1 | Z] = 0$ および $E[\epsilon_3 | Z] = 0$ なので、式は以下のように簡略化される。

\[E[X_3 | Z] = \beta_{23} E[X_2 | Z]\]

与えられたデータ（履修生 $Z=1$ の平均値）を用いると、

$E[X_3 | Z=1] = 0.2$
$E[X_2 | Z=1] = 0.4$

これを式に代入すると、

\[0.2 = \beta_{23} \times 0.4 \implies \beta_{23} = \mathbf{0.5}\]

（※未受講生 $Z=0$ のデータを用いても、$-0.4 = \beta_{23} \times (-0.8)$ より、同様に 0.5 が得られる。）

このように、交絡因子 $X_1$ と独立な変数 $Z$ が $X_2$ にのみ影響を与える（または $X_1$ を通さない経路で関係する）場合、それを利用して因果効果を抽出することが可能である。

【統計検定準１級】2018年6月論述問題問2【解答例・解説】

解説プロビット・モデルは、ある事象が「起きるか・起きないか」という二値（$Y=1$ または $0$）を予測するモデルである。(1) 積雪確率の推定値平均気温 $X_1 = 1$、日照時間 $X_2 = 1$ のときの積雪確率...