統計学

【統計検定準1級】2018年6月 選択問題及び部分記述問題 問3【解答例・解説】

解説

[1]

データの判別境界を数学的に表現すると、以下の判別関数 \(r(x)\) で完全に分類できる。

\[r(x) = \text{sign}\{(x-3)(x-1)(x+1)(x+3)\} = \text{sign}(x^4 – 10x^2 + 9)\]

カーネルによる構成

4 次の多項式カーネルを用いれば、適切な係数 \(a_i\) を選ぶことで、上記の 4 次式 \(r(x)\) を構成できる。
従って、ハードマージンSVMで完全に判別するために必要な最小の次数は \(p=4\) と結論付けられる。

符号の変化回数(境界の数)

図1の \(x\) 軸付近(\(y \approx 0\))に注目すると、データ点は \(x\) の値が \(-4, -2, 0, 2, 4\) に近い位置に存在している。
これらの点の間で正負が入れ替わるためには、判別関数の符号が 5回以上変わる 必要がある。

次数の不足

もし次数が 3 以下であれば、判別関数は 3 次以下の多項式となる。3 次関数では、符号の変化(\(x\) 軸との交点)は最大でも 3 回までしか表現できないため、このデータを完全に判別することは不可能である。

以上より、最小の次数は \(p=4\) である

[2]

サポートベクトルマシン (SVM)

  • 特徴
    SVMは、クラスを分ける境界線に最も近いデータ点(サポートベクトル)のみに依存して境界を決定する。
  • 影響
    サポートベクトル以外の観測値は、境界の決定に一切関与していない。そのため、境界から遠いデータを除去しても、最適化の結果得られる判別直線は全く変化しない

線形判別分析 (LDA)

  • 特徴
    線形判別分析は、与えられたすべての観測値を用いて、各クラスの平均や分散などの統計量を推測する。
  • 影響
    境界から遠いデータであっても、それを除去すればクラス全体の平均値や分布の形状(共分散行列)の推定値が変化する。その結果、推論される判別直線の位置や傾きに影響が及ぶのである。

 

 

コメント