統計学

【統計検定準1級】2019年6月 選択問題及び部分記述問題 問6【解答例・解説】

解説

[1]

主成分分析において、各主成分がデータ全体の変動をどの程度説明しているかを示す指標が「寄与率」である。累積寄与率は、第1主成分から順に寄与率を加算していくことで求められる。

表の「寄与率」の行から順に加算を行う。

  • 第1主成分 (PC1):0.292
  • 第2主成分まで:0.292 + 0.193 = 0.485
  • 第3主成分まで:0.485 + 0.172 = 0.657
  • 第4主成分まで:0.657 + 0.127 = 0.784
  • 第5主成分まで:0.784 + 0.117 = 0.901

第 5 主成分まで加えることで 90.1 % となり、初めて 80 % を超える。

[2]

表の「固有ベクトル」の列から、\(x_1\) から \(x_4\) までのPC1(横軸)とPC2(縦軸)の値を抜き出し、その符号と座標を確認する。

変数PC1 (横軸)PC2 (縦軸)象限
\(x_1\)+0.288-0.349第4象限 (右下)
\(x_2\)-0.416+0.319第2象限 (左上)
\(x_3\)+0.250+0.578第1象限 (右上)
\(x_4\)-0.593-0.014第3象限 (左下・軸に近い)

この座標分布と一致するグラフを探すと、グラフ ① が適切である。

[3]

AIC(赤池情報量規準)は、モデルの適合度と複雑さ(パラメータ数)のバランスを評価する指標である。予測の観点からは、AICの値が最小であるモデルが最も適切であるとされる。

図1の「各モデルのAICの値」を確認すると、グラフが最も低い値(ボトム)を示しているのは モデル 4 である。

[4]

各選択肢を吟味する。

  1. ×:PCAにおいて標準化は「推奨」されることが多いが、単位が同じ場合など、共分散行列を用いてそのまま解析することもあるため「不可欠」とは言えない。
  2. ○:相関行列(標準化されたデータ)に対する主成分分析では、主成分荷重(因子負荷量)は、その主成分と元の変数との相関関係に一致する。これは主成分分析の重要な性質の一つである。
  3. ×:AICは、モデル間に包含関係(ネスト構造)がなくても、同じデータセットに対するモデルであれば比較可能である。
  4. ×:AICはモデル同定の一致性を持たない。サンプルサイズ \(n\) を無限大にしても、真のモデルを選択する確率は 1 に収束せず、過剰に複雑なモデルを選ぶ傾向がある(一致性を持つのはBICである)。
  5. ×:AICは計算式(最大対数尤度とパラメータ数)から算出できるため、一般に交差検証法(データを分割して何度も学習・評価を繰り返す)よりも計算負荷は小さい。

 

 

コメント