解説
[1]
標本分散共分散行列より、国語の分散 \(V(X_{国語})\) は 428.6 であるから、国語と数学の相関係数は、
\begin{eqnarray}
r_{X_{国語},X_{数学}} &=& \frac{Conv(X_{国語},X_{数学})}{\sqrt{V(X_{国語})}\sqrt{V(X_{数学})}} \\
&=& \frac{42.9}{\sqrt{428.6×371.4}} \\
&\approx& 0.1075
\end{eqnarray}
と求まる。
[2]
第1主成分は総合的な学力、第2主成分は分離のバランスを表す軸と解釈できる。
第2主成分までの累積寄与率は、
\[\frac{798+560}{798+560+160+10.5}\approx 0.889\]
となるので、失われた情報は 11 %程度とわかる。
[3]
問題文の条件より、母集団が 4 変数正規分布に従うとき、\(7\ell_1 / \lambda_1\) が自由度 7 の \(\chi^2\) 分布に近似的に従うことが示されている。
95 %信頼区間を求めるため、自由度 7 の \(\chi^2\) 分布において、両端 2.5\% ずつを除いた範囲の値を付表から求める。
\[P\left( 1.69 < \frac{7\ell_1}{\lambda_1} < 16.01 \right) = 0.95\]
この不等式を \(\lambda_1\) について解くと、
\[\frac{7 \times 798}{16.01} < \lambda_1 < \frac{7 \times 798}{1.69}\]
となる。
よって、\(348.9 < \lambda_1 < 3305\) となり、母集団における第 1 固有値の推定範囲が得られる。
[4]
分散共分散行列の構造について、4つのモデル \(M_0 \sim M_3\) が提示されている。
これらは固有値がどこまで等しいか(等方性があるか)を仮定したものである。
- スクリープロットの確認:図2を見ると、第1固有値から第3固有値までは値が大きく減少しており、各主成分が独立した情報を持っていることが示唆される。
- AIC(赤池情報量規準)による判定:統計モデルの選択では、AICの値が最小となるモデルを採用するのが一般的である。与えられた表を確認すると、各モデルのAICは以下の通りである。
- \(M_0:25.4\)
- \(M_1:29.1\)
- \(M_2:26.2\)
- \(M_3:20.0\)
\(M_3\) のAICが最も小さいため、すべての固有値が異なると仮定する(あるいは特定の等号制約を設けない)モデル \(M_3\) を採用するのが妥当である。


コメント