解説
[1]
プロビット・モデルは、ある事象が「起きるか・起きないか」という二値(\(Y=1\) または \(0\))を予測するモデルである。
(1) 積雪確率の推定値
平均気温 \(X_1 = 1\)、日照時間 \(X_2 = 1\) のときの積雪確率 \(P(Y=1)\) を求める。
モデル式は以下の通りである。
\[P(Y=1 | X_1, X_2) = \Phi(\alpha_0 + \alpha_1 X_1 + \alpha_2 X_2)\]
ここで、\(\Phi(\cdot)\) は標準正規分布の累積分布関数である。
推定値 \(\hat{\alpha}_0 = -0.958, \hat{\alpha}_1 = -0.265, \hat{\alpha}_2 = -0.246\) を代入すると、
\[\hat{\alpha}_0 + \hat{\alpha}_1(1) + \hat{\alpha}_2(1) = -0.958 – 0.265 – 0.246 = -1.469\]
となる。
従って、求める確率は、
\[P(Y=1 | X_1=1, X_2=1) = \Phi(-1.469)\]
となる。
標準正規分布表や問題文のヒントに基づくと、この値は約 0.071 となる。
つまり、気温も日照も高い日は、雪が降る確率は約 7 %と極めて低いことがわかる。
(2) 限界効果(Marginal Effect)
限界効果とは、説明変数が「1単位」変化したときに、確率がどれだけ変化するかを示す指標である。
平均気温 \(X_1\) に関する限界効果は、以下の微分で計算できる。
\[\frac{\partial P(Y=1 | X_1, X_2)}{\partial X_1} = \phi(\alpha_0 + \alpha_1 X_1 + \alpha_2 X_2) \cdot \alpha_1\]
ここで、\(\phi(\cdot)\) は標準正規分布の確率密度関数である。
\(X_1=0, X_2=0\) のとき、\(\phi(\hat{\alpha}_0) = 0.252\) と与えられているため、
- 気温の限界効果:\(0.252 \times (-0.265) \approx -0.067\)
- 日照時間の限界効果:\(0.252 \times (-0.246) \approx -0.062\)
これは、気温が 1 ℃上がると積雪確率が約 6.7 %下がることを意味している。
[2]
積雪量 \(Z\) は、マイナスの値をとることがない。このように、ある値(ここでは0)でデータが「切断(切断回帰)」されている場合に適しているのがトービット・モデルである。
(1) 尤度関数の構成
トービット・モデルの尤度関数 \(L\) は、「積雪がない場合(\(Z=0\))」の確率密度と、「積雪がある場合(\(Z>0\))」の確率密度の積で構成される。
潜在変数 \(Z^* = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon\) (ただし \(\epsilon \sim N(0, \sigma^2)\))を想定すると、尤度関数は以下のようになる。
\[L(\beta, \sigma^2) = \prod_{t: z_t=0} \Phi \left( – \frac{\beta_0 + \beta_1 x_{t1} + \beta_2 x_{t2}}{\sigma} \right) \times \prod_{t: z_t > 0} \frac{1}{\sigma} \phi \left( \frac{z_t – (\beta_0 + \beta_1 x_{t1} + \beta_2 x_{t2})}{\sigma} \right)\]
- 左側の \(\prod\):雪が降らない確率(累積分布関数 \(\Phi\) を使用)
- 右側の \(\prod\):雪が降った時の具体的な量の分布(密度関数 \(\phi\) を使用)
(2) AICによるモデル選択
AIC(赤池情報量基準)を用いて、どの変数の組み合わせが最も適切かを判断する。
\[AIC = -2 \times (\text{最大対数尤度}) + 2 \times (\text{自由パラメータ数})\]
AICは値が小さいほど、モデルとしての適合度と簡潔さのバランスが良いとされる。
表からAICを計算(または確認)すると、以下の結果が得られる。
- 日照時間+平均気温:\(AIC \approx 344.992\)
- 日照時間+平均気温+最高気温:\(346.608\)
- 日照時間+平均気温+最低気温:\(343.130\) (最小)
- 日照時間+平均気温+最低気温+最高気温:\(344.322\)
したがって、「日照時間 + 平均気温 + 最低気温」の3つの変数を用いたモデルが、AICの観点から最も優れていると言える。


コメント