【統計検定準１級】2019年6月論述問題問2【解答例・解説】

解説

グラフィカルモデルにおいて、変数のペア $(X_i, X_j)$ の間に辺（エッジ）がないことは、他のすべての変数を固定したときの条件付き独立性を意味する。

ガウス型グラフィカルモデル（多変量正規分布を仮定したモデル）において、この条件付き独立性は精度行列（分散共分散行列の逆行列） $\Sigma^{-1}$ の要素として直接現れる。

与えられた標本相関行列 $\hat{C}$ の逆行列 $\hat{C}^{-1}$ を確認する。

\[\hat{C}^{-1} = \begin{pmatrix} 2.78 & -2.22 & 0.00 \\ -2.22 & 3.51 & -1.13 \\ 0.00 & -1.13 & 1.73 \end{pmatrix}\]

この行列の $(1,3)$ 要素および $(3,1)$ 要素が 0.00 である。

これは、「B君の点数を知っているとき、A君とC君の点数は独立である」という構造を示唆している。

A君：「B君にヒントをあげ、B君がC君に伝えている」
- 構造：$A \to B \to C$。
  これは $B$ を介した関係であり、構造的に矛盾しない。
B君：「A君とC君の両方にヒントをあげている」
- 構造：$A \leftarrow B \to C$
  これも $B$ が共通の要因（親）であり、$B$ を固定すれば $A$ と$C$ は独立になり、整合する。
C君：「A君とB君の両方のレポートを合成して自分のレポートを作成した」
- 構造：$A \to C \leftarrow B$（合流点）。
  この場合、通常 $A$ と $C$ の間には直接的な依存関係が生じるか、少なくとも精度行列の $(A,C)$ 要素が 0 になるとは限らない。特に、$C$ が $A$ を直接参考にしているなら、AとCの間に直接の辺が必要になる。

従って、最も不適切なのは C君である。

C君がA君のレポートを直接参照しているなら、精度行列の $(1,3)$ 要素は 0 にならないはずだが、実際のデータ（逆行列）では 0 になっている。

D君の点数が $X_D = \alpha X_A + \gamma X_C + \epsilon$ という回帰モデルで表されるとする。

これは、D君の点数が「A君の点数」と「C君の点数」に直接依存していることを意味する。

グラフィカルモデルにおいて、回帰係数が有意であることは、その変数の間に辺を引くことに対応する。

グラフの構成

結果として、以下のような四角形のグラフ（$X_B – X_A – X_D – X_C – X_B$）に近い構造ができあがる。

大規模なグラフであっても、「代表者（ハブ）」を介して情報が伝達されるような特定の構造を持つ場合、全変数の同時密度関数は、小さな部分（クリック）の積の形に 分解（factorization） できる。

例えば、クラス $C_i$ の生徒たちが代表 $H_i$ を通じてのみ外部とつながる場合、全体の分布は以下のように書ける：

\[P(V) = P(H) \prod_{i=1}^{m} P(C_i | H_i)\]

このように、複雑な多変量問題を「代表者間の関係 $P(H)$」と「各グループ内の関係 $P(C_i | H_i)$」という小さな問題に切り分けられるため、推定や予測の計算コストが大幅に削減されるのである。

このような性質を持つモデルを、統計学では分解可能モデルと呼ぶ。