統計学

【統計検定準1級】2017年6月 選択問題及び部分記述問題 問14【解答例・解説】

解説

[1]

(1)

図1はモデル1(\(y = \beta_0 + \beta_1 x + \varepsilon\))の回帰診断図である。

表より、USA(アメリカ合衆国)の実際の平均寿命 \(y\) は 78.8 である。

図1の「(ア) Residuals vs Fitted(予測値に対する残差のプロット)」を見ると、USAを表す点「29」の位置は以下のようになっている。

  • 横軸(Fitted values = 予測値 \(\hat{y}\)):約 84.2
  • 縦軸(Residuals = 残差 \(e\)):約 -5.4

実際の値 \(y\)、予測値 \(\hat{y}\)、残差 \(e\) の間には \(y = \hat{y} + e\) の関係が成り立つ。

\(84.2 + (-5.4) = 78.8\) となり、実際の平均寿命と一致する。

従って、正解は ③ である。

(2)

① 適切:残差プロット(ア)において点がランダムに散らばらず、U字型などのパターンが見られる場合は、線形性の仮定が満たされていない(非線形な関係がある)と判断できる。

② 適切:残差プロット(ア)の縦軸(残差)の絶対値が極端に大きい点は、モデルから大きく外れた外れ値として検出できる。

③ 適切:Normal Q-Qプロット(イ)は、残差が正規分布に従うかを視覚的に確認する図である。点が直線上に乗っていれば正規性が仮定できる。

④ 適切:Scale-Locationプロット(ウ)は、予測値の大きさによって残差のばらつきが変化しないか(等分散性)を確認する図である。赤い平滑化線が水平で、点が均等に散らばっていれば等分散性が仮定できる。

⑤ 不適切:Residuals vs Leverageプロット(エ)における横軸の「梃子値(Leverage)」は、その観測値が説明変数の空間においてどれだけ外れているか(中心から遠いか)を示す。梃子値が大きい観測値ほど、回帰直線を引き寄せる力が強くなるため、モデルへの影響力が大きいと判断される。よって、「梃子値の小さい観測値ほど〜」とするこの記述は誤りである。

[2]

(1)

決定係数 \(R^2\) はモデルの当てはまりの良さを示す指標であり、残差平方和が小さいほど 1 に近づく。

図 1 (ア)の残差はおおよそ -6 から +4 の範囲に散らばっているのに対し、対数変換を施した図 2 (ア)の残差は -4 から +3 程度の範囲に収まっており、全体的に残差の絶対値が小さくなっていることが視覚的に確認できる。

 

(2)

表より、JPN(日本)の平均寿命 \(y\) は 83.4、ESP(スペイン)の平均寿命 \(y\) は 83.2 である。

残差プロット(ア)における任意の点について、「横軸の値(予測値 \(\hat{y}\))+ 縦軸の値(残差 \(e\))= 実際の値 \(y\)」が成り立つ。

点24(ESP)の位置を見ると、横軸が約 80.5、縦軸が約 2.7 であり、合計すると 80.5 + 2.7 = 83.2 となる。

JPNは実際の値が 83.4 であり、ESPの 83.2 に非常に近い。

図 2 (ア)を見ると、点24と同じような予測値(横軸位置)で、残差(縦軸)が少しだけ大きい点が存在する(横軸 \(\approx 80.5\)、縦軸 \(\approx 2.9\))。

この点が \(y \approx 83.4\) を満たすJPNのデータ点であると特定できる。

(3)

箱ひげ図は以下のルールに従って描く。

  1. 箱の両端:第 1 四分位数から第 3 四分位数までを箱で囲む。
  2. 箱の中の線:中央値の位置に線を引く。
  3. ひげ:箱の両端から最小値および最大値まで線を伸ばす(問題文の指示通り、外れ値の処理はせず最大・最小まで伸ばす)。

2つのモデルを並べて描くことで、モデル2の方がヒゲの下端(最小値の絶対値)が小さくなり、箱の幅(四分位範囲)などを含めた全体のばらつきが若干抑えられていることを視覚的に示すことができる。

 

 

コメント