【統計検定準１級】2018年6月選択問題及び部分記述問題問3【解答例・解説】

解説

データの判別境界を数学的に表現すると、以下の判別関数 \(r(x)\) で完全に分類できる。

\[r(x) = \text{sign}\{(x-3)(x-1)(x+1)(x+3)\} = \text{sign}(x^4 – 10x^2 + 9)\]

カーネルによる構成

4 次の多項式カーネルを用いれば、適切な係数 \(a_i\) を選ぶことで、上記の 4 次式 \(r(x)\) を構成できる。
従って、ハードマージンSVMで完全に判別するために必要な最小の次数は \(p=4\) と結論付けられる。

符号の変化回数（境界の数）

図1の \(x\) 軸付近（\(y \approx 0\)）に注目すると、データ点は \(x\) の値が \(-4, -2, 0, 2, 4\) に近い位置に存在している。
これらの点の間で正負が入れ替わるためには、判別関数の符号が 5回以上変わる 必要がある。

次数の不足

もし次数が 3 以下であれば、判別関数は 3 次以下の多項式となる。3 次関数では、符号の変化（\(x\) 軸との交点）は最大でも 3 回までしか表現できないため、このデータを完全に判別することは不可能である。

以上より、最小の次数は \(p=4\) である

サポートベクトルマシン (SVM)

特徴
SVMは、クラスを分ける境界線に最も近いデータ点（サポートベクトル）のみに依存して境界を決定する。
影響
サポートベクトル以外の観測値は、境界の決定に一切関与していない。そのため、境界から遠いデータを除去しても、最適化の結果得られる判別直線は全く変化しない。

線形判別分析 (LDA)

特徴
線形判別分析は、与えられたすべての観測値を用いて、各クラスの平均や分散などの統計量を推測する。
影響
境界から遠いデータであっても、それを除去すればクラス全体の平均値や分布の形状（共分散行列）の推定値が変化する。その結果、推論される判別直線の位置や傾きに影響が及ぶのである。