解説
[1]
1回目のテストで点数が低かった学生ほど2回目に受験しない傾向にあったことから、 \(\bar{y}_A\) で \(\mu_Y\) を推定した場合、平均値はより大きい値になると考えられる。
従って、 \(\bar{y}_A\) は \(\mu_Y\) を過大評価する。
また、本来「1回目が低い → 2回目も低い」「1回目が高い人 → 2回目も高い」という 正の相関 があると考えられるが、相関を強める「左下の点」がごっそり抜け落ちることになるため、関係が弱く評価される。
従って、 \(r_A\) は \(\rho\) を過小評価する。
別の例で考えてみる
「身長と体重」は強く相関しているが、「身長170cm以上の人だけ」で相関を見ると思ったより弱くなる
[2]
回帰直線を用いて2回目のテストの得点を予測し,全体の平均を求めているため、過大評価は抑えられると考えられる。
従って、 \(\bar{y}_B\) は \(\mu_Y\) を偏りなく推定する。
また、回帰直線を用いて得られた予測値はばらつきを伴わないため、本来より相関が強いデータになってしまう。
従って、 \(r_B\) は \(\rho\) を過大評価する。

コメント