解説
[1]
与えられている推定量 \(\hat{Y} = \sum_{h=1}^4 \frac{N_h}{n_h} \sum_{i=1}^{n_h} y_{hi}\) は、各層から単純無作為抽出を行って母集団総計 \(Y\) を推定するための、層化抽出法における不偏推定量である。
(1) 配分Aを利用した場合の母集団平均の推定量 \(\hat{Y}/35\) の期待値
母集団総計の推定量 \(\hat{Y}\) は不偏推定量であるため、その期待値 \(E[\hat{Y}]\) は母集団総計 \(Y\) に等しくなる。
求められているのは母集団平均の推定量 \(\hat{Y}/35\) (母集団の大きさは \(N=35\) )の期待値であるから、期待値の線形性より以下のようになる。
\[E\left[\frac{\hat{Y}}{35}\right] = \frac{1}{35} E[\hat{Y}] = \frac{Y}{35} = \bar{Y}\]
つまり、これは真の母集団平均 \(\bar{Y}\) に一致する。
問題文の最初の表「層内の大豆の収穫量平均および標準偏差」から、母集団の平均は 163 (t) であることがわかる。どのような配分方法であっても、不偏推定量の期待値は真の値と一致する。
従って、正解は ② 163 である。
(2) 推定量 \(\hat{Y}\) の分散が最も小さい配分方法
層化抽出法において、推定量の分散を最小にする最適な標本の大きさの配分方法をネイマン配分(または最適配分)と呼ぶ。
ネイマン配分では、各層からの標本の大きさ \(n_h\) を、\(N_h S_h\) (層の大きさ \(\times\) 層内標準偏差)に比例するように決定する。
各層の \(N_h S_h\) の値を計算してみる。
- 層I:\(20 \times 17 = 340\)
- 層II:\(8 \times 69 = 552\)
- 層III:\(5 \times 182 = 910\)
- 層IV:\(2 \times 24 = 48\)
これを比にすると、340 : 552 : 910 : 48 となり、層IIIの比率が最も大きく、次いで層II、層Iとなり、層IVが最も小さくなる。
標本の大きさ \(n=8\) をこの比率で近似的に配分する公式 \(n_h = n \frac{N_h S_h}{\sum N_k S_k}\) に当てはめると、
全体の和 \(\sum N_k S_k = 340 + 552 + 910 + 48 = 1850\)
- \(n_1 = 8 \times (340 / 1850) \approx 1.47\)
- \(n_2 = 8 \times (552 / 1850) \approx 2.39\)
- \(n_3 = 8 \times (910 / 1850) \approx 3.94\)
- \(n_4 = 8 \times (48 / 1850) \approx 0.21\)
各層から少なくとも1つの標本を抽出する (\(n_h \ge 1\)) という条件のもとで、この理論値に最も近い整数配分を探すと、\((n_1, n_2, n_3, n_4) = (1, 2, 4, 1)\) となる。これは配分方法 B と一致する。
従って、正解は ② B である。
[2]
(1) 3種類のモデルを比較した記述として適切でないもの
各選択肢を検討する。
- ①:モデル1の出力結果を見ると、(Intercept) の Estimate が 6.21504、作付面積の Estimate が 1.05798 である。よって予測式は \(y = 6.21504 + 1.05798x\) となり、この記述は正しい。
- ②:モデル2の出力結果で、「層」に対する \(P\) 値(\(\text{Pr}(>|t|)\))は 0.261 であり、一般的な有意水準(例えば 0.05)よりも大きい。これは「層の係数は0である」という帰無仮説を棄却できないことを意味し、モデルから除外することを検討する正当な理由となる。この記述は正しい。
- ③:モデル2の式は \(y = \beta_0 + \beta_1 x + \beta_2 z\) である。これを \(x\) について整理すると、傾きは \(\beta_1\) のみであり、層を表す変数 \(z\) は切片(\(\beta_0 + \beta_2 z\))を変化させる働きをする。同様に、モデル3も傾きは \(\beta_1\) のままであり、ダミー変数によって切片のみが変化する共分散分析モデルである。「モデル2では回帰直線の傾きは層により異なる」という部分が誤りである。
- ④:モデル3において、層Iのデータである場合、ダミー変数の定義から \(S_2 = 0, S_3 = 0\) となる。これを式に代入すると \(y = \beta_0 + \beta_1 x + \epsilon\) となり、層Iに対する予測式が得られる。この記述は正しい。
- ⑤:出力結果の Adjusted R-squared(自由度調整済み決定係数)を比較すると、モデル1は 0.9673、モデル2は 0.9676、モデル3は 0.9689 であり、モデル3が最も当てはまりが良い。しかしその差はごくわずかであるため、解釈の容易さや過学習を防ぐ観点から、最もシンプルなモデル1を選択するという実務的な判断は妥当である。この記述は正しい。
従って、誤りは ③ である。
(2) モデル3を用いた収穫量の予測値
作付面積が \(x = 500\) (ha) のときの予測値を計算する。
まず、作付面積が 500 (ha) の市町村がどの層に属するかを確認する。最初のページの表「作付面積の区分」を見ると、「250以上 600未満」は 層III に該当する。
モデル3におけるダミー変数の定義より、層IIIの場合は \(S_2 = 0, S_3 = 1\) となる。
モデル3の出力結果から得られる係数を予測式に代入する。
\[y = -2.87655 + 1.02862x + 38.53155S_2 + 23.16200S_3\]
ここに \(x = 500, S_2 = 0, S_3 = 1\) を代入して計算する。
\[y = -2.87655 + 1.02862 \times 500 + 38.53155 \times 0 + 23.16200 \times 1\]
\[y = 534.59545\]
従って、正解は ⑤ 535 である。


コメント