統計学

【統計検定準1級】2019年6月 論述問題 問2【解答例・解説】

解説

[1]

グラフィカルモデルにおいて、変数のペア \((X_i, X_j)\) の間に辺(エッジ)がないことは、他のすべての変数を固定したときの条件付き独立性を意味する。

ガウス型グラフィカルモデル(多変量正規分布を仮定したモデル)において、この条件付き独立性は精度行列(分散共分散行列の逆行列) \(\Sigma^{-1}\) の要素として直接現れる。

[2]

与えられた標本相関行列 \(\hat{C}$ の逆行列 $\hat{C}^{-1}\) を確認する。

\[\hat{C}^{-1} = \begin{pmatrix} 2.78 & -2.22 & 0.00 \\ -2.22 & 3.51 & -1.13 \\ 0.00 & -1.13 & 1.73 \end{pmatrix}\]

この行列の \((1,3)\) 要素および \((3,1)\) 要素が 0.00 である。

これは、「B君の点数を知っているとき、A君とC君の点数は独立である」という構造を示唆している。

  • A君:「B君にヒントをあげ、B君がC君に伝えている」
    • 構造:\(A \to B \to C\)。
      これは \(B\) を介した関係であり、構造的に矛盾しない。
  • B君:「A君とC君の両方にヒントをあげている」
    • 構造:\(A \leftarrow B \to C\)
      これも \(B\) が共通の要因(親)であり、\(B\) を固定すれば \(A\) と\(C\) は独立になり、整合する。
  • C君:「A君とB君の両方のレポートを合成して自分のレポートを作成した」
    • 構造:\(A \to C \leftarrow B\)(合流点)。
      この場合、通常 \(A\) と \(C\) の間には直接的な依存関係が生じるか、少なくとも精度行列の \((A,C)\) 要素が 0 になるとは限らない。特に、\(C\) が \(A\) を直接参考にしているなら、AとCの間に直接の辺が必要になる。

従って、最も不適切なのは C君 である。

C君がA君のレポートを直接参照しているなら、精度行列の \((1,3)\) 要素は 0 にならないはずだが、実際のデータ(逆行列)では 0 になっている。

[3]

D君の点数が \(X_D = \alpha X_A + \gamma X_C + \epsilon\) という回帰モデルで表されるとする。

これは、D君の点数が「A君の点数」と「C君の点数」に直接依存していることを意味する。

グラフィカルモデルにおいて、回帰係数が有意であることは、その変数の間に辺を引くことに対応する。

グラフの構成

  1. 既存の \(X_A – X_B – X_C\) の関係(\(A\) と \(C\) は直接つながらない)を維持する。
  2. 式より、\(X_D\) は \(X_A\) および \(X_C\) と直接つながる。
  3. \(X_B\) と \(X_D\) の間に直接の関係を示す項はないため、辺は引かない。

結果として、以下のような四角形のグラフ(\(X_B – X_A – X_D – X_C – X_B\))に近い構造ができあがる。

[4]

大規模なグラフであっても、「代表者(ハブ)」を介して情報が伝達されるような特定の構造を持つ場合、全変数の同時密度関数は、小さな部分(クリック)の積の形に 分解(factorization) できる。

例えば、クラス \(C_i\) の生徒たちが代表 \(H_i\) を通じてのみ外部とつながる場合、全体の分布は以下のように書ける:

\[P(V) = P(H) \prod_{i=1}^{m} P(C_i | H_i)\]

このように、複雑な多変量問題を「代表者間の関係 \(P(H)\)」と「各グループ内の関係 \(P(C_i | H_i)\)」という小さな問題に切り分けられるため、推定や予測の計算コストが大幅に削減されるのである。

このような性質を持つモデルを、統計学では分解可能モデルと呼ぶ。

 

 

コメント