統計学の入門で最初に登場するのが、期待値・分散・標準偏差・共分散・相関係数などの指標です。
これらはデータの特徴や変数間の関係をとらえる上で不可欠ですが、似た言葉が多く混乱しやすい分野でもあります。
この記事では、それぞれの意味と公式をシンプルにまとめます。
【事前準備】記号の説明
| 記号 | 説明 |
|---|---|
| \(X, Y\) | 確率変数(ランダムに値をとる) |
| \(x_i, y_i\) | 確率変数の取り得る値(観測値) |
| \(p_i\) | 値 \(x_i\) が起こる確率 |
| \(a, b, c\) | 定数 |
期待値 \(E(X)\)
◼︎概要
確率変数が取りうる値の「平均」に相当する量。
◼︎定義
離散型(例:サイコロ)の場合、
\[E[X]=\sum_ix_ip_i\]
連続型の場合、
\[E[X]=\int_\infty^\infty xf(x)dx\]
\[E[aX+bY+c]=aE[X]+bE[Y]+c\]
2つの確率変数 \(X, Y\) が独立な場合、
\[E[XY]=E[X]E[Y]\]
分散 \(V[X]\)
◼︎概要
データが期待値からどれくらい散らばっているかを表す量。
◼︎定義
\[V[X]=E[X^2]-(E[X])^2\]
\[V[X+Y]=V[X]+V[Y]+2Cov[X, Y]\]
\[V[X-Y]=V[X]+V[Y]-2Cov[X, Y]\]
標準偏差 \(SD[X]\)
◼︎概要
分散の平方根。元の単位に戻るため解釈しやすくなる。
◼︎定義
\[SD[X]=\sqrt{V[X]}\]
\[SD[X-Y]=\sqrt{V[X]+V[Y]-2Cov[X, Y]}\]
共分散 \(Cov[X, Y]\)
◼︎概要
2つの確率変数 \(X, Y\) がどのように一緒に変動するかを示す量。
正の場合:一方が大きいとき大きく、小さいとき小さい。
負の場合:一方が大きいときにもう一方が小さい。
◼︎定義
\begin{eqnarray}
Cov[X, Y]&=&E[(X-E[X])(Y-E[Y])] \\
&=&E[XY]-E[X]E[Y]
\end{eqnarray}
相関係数 \(\rho\)
◼︎概要
共分散を標準化した指標で、値は常に \(−1\leq\rho\leq1\) 。
◼︎定義
\[\rho=\frac{Cov[X, Y]}{SD[X]SD[Y]}\]

コメント