統計学

【統計検定準1級】2019年6月 論述問題 問1【解答例・解説】

解説

[1]

一元配置分散分析のモデル式は \(Y_{ij} = \mu + \alpha_i + \epsilon_{ij}\) である。

ここで、各水準(品種)の期待値を \(\mu_i\) とすると、\(\mu_i = \mu + \alpha_i\) という関係となる。

しかし、このままでは問題がある。

例えば、\(\mu=10, \alpha_1=2\) としても、\(\mu=12, \alpha_1=0\) としても、和である \(\mu_1=12\) は同じになる。

つまり、データから \(\mu\) と \(\alpha_i\) を一意に(バラバラに)決めることができない。
これを「識別可能でない」と言う。

そこで、\(\alpha_i\) の合計を \(0\) に縛るなどの制約条件を設けることで、各パラメータを確定させます。

\(\sum n_i \alpha_i = 0\) の場合:\(\mu\) は「全データ(個体)の平均(重み付き平均)」になる。

\[\mu = \frac{1}{n} \sum_{i=1}^4 n_i \mu_i\]

\(\sum \alpha_i = 0\) の場合:\(\mu\) は「各品種の平均の平均(単純平均)」になる。

\[\mu = \frac{1}{4} \sum_{i=1}^4 \mu_i\]

[2]

分散分析表は以下の通りである。

要因平方和 (SS)自由度 (df)分散 (MS)F 値
品種46.64-1=315.533.7886
誤差57.418-4=144.10
合計104.018-1=17

\(F\) 値 \(3.7886\) を自由度 \((3, 14)\) の \(F\) 分布の境界値と比較すると、5 %有意水準で「品種間に有意な差がある」と結論付けられる。

母分散 \(\sigma^2\) の不偏推定値は $4.10$ である。

[3]

検定統計量 \(T\) を作る際、分子の分散で割って標準化する必要がある。

分子を \(L = \frac{\bar{Y}_1 + \bar{Y}_2}{2} – \frac{\bar{Y}_3 + \bar{Y}_4}{2}\) とおくと、その分散 \(V(L)\) は各平均の分散の和になる。

\[V(L) = \frac{1}{4} \sigma^2 \left( \frac{1}{n_1} + \frac{1}{n_2} + \frac{1}{n_3} + \frac{1}{n_4} \right)\]

これを標準化するための係数 \(c\) は、\(\sigma^2\) を除いた部分の平方根として、

\[c = \sqrt{\frac{\hat{\sigma}^2}{4} \left( \frac{1}{n_1} + \frac{1}{n_2} + \frac{1}{n_3} + \frac{1}{n_4} \right)}\]

と求まる。

計算の結果、\(|T| = 2.238\) となり、自由度 \(14\) の \(t\) 分布の 5 %有意水準(両側 2.5 %点)である \(2.145\) より大きいため、5 %水準で有意な差がある。

[4]

N君はデータを見てから「一番大きい \(A_4\) と一番小さい \(A_2\) を比べよう」と決めた。

これは、いわば後出しジャンケンと同じである。

  • N君は「偶然一番差が開いたペア」を選んで検定しているため、通常の \(t\) 検定の基準(1 %や 5 %)をそのまま使うのは不適切。
  • 4品種ある場合、2つを選んで比較する組み合わせは \(_4C_2 = 6\) 通りある。
  • 第1種の過誤の増大:1回の検定で 5 %の間違いを許容する場合、6 回も検定を繰り返すと、「どれか1つでも偶然有意になってしまう確率 」は 5 %よりもずっと大きくなってしまう。

 

 

コメント