統計

期待値・分散・標準偏差・共分散・相関係数の公式まとめ

統計学の入門で最初に登場するのが、期待値・分散・標準偏差・共分散・相関係数などの指標です。
これらはデータの特徴や変数間の関係をとらえる上で不可欠ですが、似た言葉が多く混乱しやすい分野でもあります。

この記事では、それぞれの意味公式をシンプルにまとめます。

【事前準備】記号の説明

記号説明
\(X, Y\) 確率変数(ランダムに値をとる)
\(x_i, y_i\)確率変数の取り得る値(観測値)
\(p_i\)値 \(x_i\) が起こる確率
\(a, b, c\)定数

 

 

期待値 \(E(X)\)

◼︎概要

確率変数が取りうる値の「平均」に相当する量。

◼︎定義

離散型(例:サイコロ)の場合、

\[E[X]=\sum_ix_ip_i\]

連続型の場合、

\[E[X]=\int_\infty^\infty xf(x)dx\]

\[E[aX+bY+c]=aE[X]+bE[Y]+c\]

2つの確率変数 \(X, Y\) が独立な場合、

\[E[XY]=E[X]E[Y]\]

 

 

分散 \(V[X]\)

◼︎概要

データが期待値からどれくらい散らばっているかを表す量。

◼︎定義

\[V[X]=E[X^2]-(E[X])^2\]

\[V[X+Y]=V[X]+V[Y]+2Cov[X, Y]\]

\[V[X-Y]=V[X]+V[Y]-2Cov[X, Y]\]

 

 

標準偏差 \(SD[X]\)

◼︎概要

分散の平方根。元の単位に戻るため解釈しやすくなる。

◼︎定義

\[SD[X]=\sqrt{V[X]}\]

\[SD[X-Y]=\sqrt{V[X]+V[Y]-2Cov[X, Y]}\]

 

 

共分散 \(Cov[X, Y]\)

◼︎概要

2つの確率変数 \(X, Y\) がどのように一緒に変動するかを示す量。
正の場合:一方が大きいとき大きく、小さいとき小さい。
負の場合:一方が大きいときにもう一方が小さい。

◼︎定義

\begin{eqnarray}
Cov[X, Y]&=&E[(X-E[X])(Y-E[Y])] \\
&=&E[XY]-E[X]E[Y]
\end{eqnarray}

 

 

相関係数 \(\rho\)

◼︎概要

共分散を標準化した指標で、値は常に \(−1\leq\rho\leq1\) 。

◼︎定義

\[\rho=\frac{Cov[X, Y]}{SD[X]SD[Y]}\]

 

 

コメント