解説
[1]
一元配置分散分析のモデル式は \(Y_{ij} = \mu + \alpha_i + \epsilon_{ij}\) である。
ここで、各水準(品種)の期待値を \(\mu_i\) とすると、\(\mu_i = \mu + \alpha_i\) という関係となる。
しかし、このままでは問題がある。
例えば、\(\mu=10, \alpha_1=2\) としても、\(\mu=12, \alpha_1=0\) としても、和である \(\mu_1=12\) は同じになる。
つまり、データから \(\mu\) と \(\alpha_i\) を一意に(バラバラに)決めることができない。
これを「識別可能でない」と言う。
そこで、\(\alpha_i\) の合計を \(0\) に縛るなどの制約条件を設けることで、各パラメータを確定させます。
\(\sum n_i \alpha_i = 0\) の場合:\(\mu\) は「全データ(個体)の平均(重み付き平均)」になる。
\[\mu = \frac{1}{n} \sum_{i=1}^4 n_i \mu_i\]
\(\sum \alpha_i = 0\) の場合:\(\mu\) は「各品種の平均の平均(単純平均)」になる。
\[\mu = \frac{1}{4} \sum_{i=1}^4 \mu_i\]
[2]
分散分析表は以下の通りである。
| 要因 | 平方和 (SS) | 自由度 (df) | 分散 (MS) | F 値 |
| 品種 | 46.6 | 4-1=3 | 15.53 | 3.7886 |
| 誤差 | 57.4 | 18-4=14 | 4.10 | |
| 合計 | 104.0 | 18-1=17 |
\(F\) 値 \(3.7886\) を自由度 \((3, 14)\) の \(F\) 分布の境界値と比較すると、5 %有意水準で「品種間に有意な差がある」と結論付けられる。
母分散 \(\sigma^2\) の不偏推定値は $4.10$ である。
[3]
検定統計量 \(T\) を作る際、分子の分散で割って標準化する必要がある。
分子を \(L = \frac{\bar{Y}_1 + \bar{Y}_2}{2} – \frac{\bar{Y}_3 + \bar{Y}_4}{2}\) とおくと、その分散 \(V(L)\) は各平均の分散の和になる。
\[V(L) = \frac{1}{4} \sigma^2 \left( \frac{1}{n_1} + \frac{1}{n_2} + \frac{1}{n_3} + \frac{1}{n_4} \right)\]
これを標準化するための係数 \(c\) は、\(\sigma^2\) を除いた部分の平方根として、
\[c = \sqrt{\frac{\hat{\sigma}^2}{4} \left( \frac{1}{n_1} + \frac{1}{n_2} + \frac{1}{n_3} + \frac{1}{n_4} \right)}\]
と求まる。
計算の結果、\(|T| = 2.238\) となり、自由度 \(14\) の \(t\) 分布の 5 %有意水準(両側 2.5 %点)である \(2.145\) より大きいため、5 %水準で有意な差がある。
[4]
N君はデータを見てから「一番大きい \(A_4\) と一番小さい \(A_2\) を比べよう」と決めた。
これは、いわば後出しジャンケンと同じである。
- N君は「偶然一番差が開いたペア」を選んで検定しているため、通常の \(t\) 検定の基準(1 %や 5 %)をそのまま使うのは不適切。
- 4品種ある場合、2つを選んで比較する組み合わせは \(_4C_2 = 6\) 通りある。
- 第1種の過誤の増大:1回の検定で 5 %の間違いを許容する場合、6 回も検定を繰り返すと、「どれか1つでも偶然有意になってしまう確率 」は 5 %よりもずっと大きくなってしまう。


コメント