【統計検定準１級】2019年6月論述問題問1【解答例・解説】

解説

一元配置分散分析のモデル式は $Y_{ij} = \mu + \alpha_i + \epsilon_{ij}$ である。

ここで、各水準（品種）の期待値を $\mu_i$ とすると、$\mu_i = \mu + \alpha_i$ という関係となる。

しかし、このままでは問題がある。

例えば、$\mu=10, \alpha_1=2$ としても、$\mu=12, \alpha_1=0$ としても、和である $\mu_1=12$ は同じになる。

つまり、データから $\mu$ と $\alpha_i$ を一意に（バラバラに）決めることができない。
これを「識別可能でない」と言う。

そこで、$\alpha_i$ の合計を $0$ に縛るなどの制約条件を設けることで、各パラメータを確定させます。

$\sum n_i \alpha_i = 0$ の場合：$\mu$ は「全データ（個体）の平均（重み付き平均）」になる。

\[\mu = \frac{1}{n} \sum_{i=1}^4 n_i \mu_i\]

$\sum \alpha_i = 0$ の場合：$\mu$ は「各品種の平均の平均（単純平均）」になる。

\[\mu = \frac{1}{4} \sum_{i=1}^4 \mu_i\]

分散分析表は以下の通りである。

$F$ 値 $3.7886$ を自由度 $(3, 14)$ の $F$ 分布の境界値と比較すると、5 %有意水準で「品種間に有意な差がある」と結論付けられる。

母分散 $\sigma^2$ の不偏推定値は $4.10$ である。

検定統計量 $T$ を作る際、分子の分散で割って標準化する必要がある。

分子を $L = \frac{\bar{Y}_1 + \bar{Y}_2}{2} – \frac{\bar{Y}_3 + \bar{Y}_4}{2}$ とおくと、その分散 $V(L)$ は各平均の分散の和になる。

\[V(L) = \frac{1}{4} \sigma^2 \left( \frac{1}{n_1} + \frac{1}{n_2} + \frac{1}{n_3} + \frac{1}{n_4} \right)\]

これを標準化するための係数 $c$ は、$\sigma^2$ を除いた部分の平方根として、

\[c = \sqrt{\frac{\hat{\sigma}^2}{4} \left( \frac{1}{n_1} + \frac{1}{n_2} + \frac{1}{n_3} + \frac{1}{n_4} \right)}\]

と求まる。

計算の結果、$|T| = 2.238$ となり、自由度 $14$ の $t$ 分布の 5 %有意水準（両側 2.5 %点）である $2.145$ より大きいため、5 %水準で有意な差がある。

N君はデータを見てから「一番大きい $A_4$ と一番小さい $A_2$ を比べよう」と決めた。

これは、いわば後出しジャンケンと同じである。

N君は「偶然一番差が開いたペア」を選んで検定しているため、通常の $t$ 検定の基準（1 %や 5 %）をそのまま使うのは不適切。
4品種ある場合、2つを選んで比較する組み合わせは $_4C_2 = 6$ 通りある。
第1種の過誤の増大：1回の検定で 5 %の間違いを許容する場合、6 回も検定を繰り返すと、「どれか1つでも偶然有意になってしまう確率」は 5 %よりもずっと大きくなってしまう。