統計学

【統計検定準1級】2016年6月 選択問題及び部分記述問題 問14【解答例・解説】

解説

[1]

(1)

手法(ア)がLDA(線形判別分析)であり、手法(イ)がSVM(サポート・ベクター・マシーン)である。

  • 理由
    LDA(Linear Discriminant Analysis)は、その名の通り「線形」の判別境界を引く手法である。図2の(ア)を見ると、群Aと判定された領域(黒)と群Bと判定された領域(白)の境界が、直線的になっていることが視覚的にわかる。一方、(イ)で使用されているのは「ガウシアンカーネル」を用いたSVMである。ガウシアンカーネルを用いると、データを高次元空間に写像することで非線形な境界を引くことができる。図2の(イ)を見ると、群B(白)の周りを群A(黒)が囲い込むような、複雑で曲線的な判別境界が形成されているため、こちらがSVMであると判断できる。
  • 誤判別率の計算
    表1の正誤表から、全体の観測値の数(170個)に対して、誤って分類されたデータの数を計算する。誤判別率は (誤って分類された数) / (全体の数) で求められる。
    • 手法(ア)の誤判別率:真の群がAで判別がB(20個)+真の群がBで判別がA(0個)= 20個。よって誤判別率は \(\frac{20}{170} = \frac{2}{17}\)である。
    • 手法(イ)の誤判別率:真の群がAで判別がB(4個)+真の群がBで判別がA(5個)= 9個。よって誤判別率は \(\frac{9}{170}\)である。

(2)

交差検証法とは、手元にあるデータセットを「モデルを学習するための訓練データ」と「モデルの性能をテストするための検証データ」に分割し、モデルの評価を行う手法である。

[2]

前提条件の確認

問題文の仮定から、「事前確率は等しい」「誤判別の損失は等しい」とある。また、重要な点として「群内分散共分散行列が単位行列 \(I\) になるように標準化」されている。

距離に基づく判別

共分散行列が単位行列である(分散が全方向に等しく、変数間に相関がない)空間においては、マハラノビス距離は通常の「ユークリッド距離(定規で測る直線距離)」と一致する。したがって、ある新しい点がどのワインに属するかは、単純に「3つの重心(●)のうち、どれに一番近いか」で判別すればよい(最短距離分類)。

具体的な描き方(解答に記述すべき内容)

2つの点から等しい距離にある点の集合は「垂直二等分線」になる。よって、以下の手順で描図する。

  1. 散布図上にある3つのグループの重心(●)をそれぞれ直線で結び、三角形を作る。
  2. その三角形の各辺(3つの線分)に対して、それぞれ垂直二等分線を引く。
  3. これら3本の垂直二等分線は1点(三角形の外心)で交わる。
  4. この交わる垂直二等分線によって、平面が3つの領域に分割される。この分割された各領域が、それぞれ最も近い重心が属するグループの「判別領域」となる(この分割図形をボロノイ図と呼ぶ)。

 

 

コメント