【統計検定準１級】2021年6月選択問題及び部分記述問題問5【解答例・解説】

解説

最小二乗法（OLS）: すべてのデータを平等に扱う。不均一分散下でも「不偏性（偏りがないこと）」は保たれるが、推定量の分散は最小にならない。
一般化最小二乗法（GLS/WLS）: 分散 $\sigma_i^2$ の逆数を重みとして用いる。バラツキが大きいデータの重みを小さく、バラツキが小さいデータの重みを大きくすることで、より精度の高い推定を行う。

ガウス＝マルコフの定理の拡張により、適切な重みを用いたGLS推定法は、最良線形不偏推定量（BLUE）となる。

つまり、数ある不偏推定量の中で「推定量の分散を最小にする」という性質を持つ。

従って、②が正解である。

決定係数 $R^2$ は、「データの全変動のうち、回帰モデルによって説明できた変動の割合」を表す。

\[R^2 = \frac{\text{回帰平方和 (SSR)}}{\text{全平方和 (SST)}} = \frac{\sum_{i=1}^{10} (\hat{y}_i – \bar{y})^2}{\sum_{i=1}^{10} (y_i – \bar{y})^2}\]

従って、②が正解である。

OLSの性質

最小二乗法（OLS）は、定義そのものが「残差二乗和 $\sum (y_i – \hat{y}_i)^2$ を最小化する」手法である。これは、〔2〕の定義における $R^2$ を最大化することと同義である。

GLSとの比較

一般化最小二乗法（GLS）は「重み付き残差二乗和」を最小化する手法であり、通常の（重みのない）残差二乗和を最小化するわけではない。そのため、通常の $R^2$ の式に当てはめた場合、必ず $R_1^2$ (OLS) $\ge R_2^2$ (GLS) という関係が成り立つ。

グラフからの判断

図1の散布図を見ると、データ点は回帰直線に非常に強く集中しており、相関が極めて高いことがわかる。この場合、決定係数は 0.9 を超える高い値になるのが自然である。

$R_1^2 > R_2^2$ を満たすのは ② と ④。

図の適合具合から、より妥当な数値は ④ ($R_1^2 = 0.955, R_2^2 = 0.705$) である。