高校数学[総目次]
スライド | ノート | |
1. データの代表値 | ||
2. データの散らばりと四分位範囲 | ||
3. 分散と標準偏差 | ||
4. 2つの変量の間の関係 | ||
5. 仮説検定の考え方 |
数学Ⅰ 第3章 データの分析
3.分散と標準偏差
3.1 分散と標準偏差
偏差とは?
変量 $x$:$x_1,\ x_2,\ \cdots,\ x_n$
変量 $x$ の平均値:$\overline{x}$
このとき,
\[x_1-\overline{x},\ x_2-\overline{x},\ \cdots,\ x_n-\overline{x}\]
を,変量 $x_1,\ x_2,\ \cdots,\ x_n$ の平均値からの偏差という.
補足
偏差とは要するに各データの平均値からのズレのことである.平均値より大きければプラス,小さければマイナスの値となる.
分散とは?
例えばあるテストの平均点が50点であると言ったとき,全員が50点だった場合や,100点もいれば0点もいるといった場合もあって,平均点からはこういった様子は見えてこない.
そこで平均値からのズレである偏差を用いて,偏差が平均的にどのような値であるかを見ればデータのばらつき具合がわかりそうであるが、実はそうもいかない.何故ならどんなデータであっても偏差の平均値は常に0となってしまうからである.実際,データ数が3の場合で計算してみると,
\[\begin{align*} &\frac13\{(x_1-\overline{x})+(x_2-\overline{x})+(x_3-\overline{x})\}\\[5pt] &=\frac{x_1+x_2+x_3}3-\frac{3\overline{x}}3\\[5pt] &=\overline{x}-\overline{x}\\[5pt] &=0. \end{align*}\]
そこで,偏差そのものの平均ではなく,偏差の2乗の平均,すなわち
\[\frac1n\{(x_1\!-\!\overline{x})^2\!+\!(x_2\!-\!\overline{x})^2\!+\!\cdots\!+\!(x_n\!-\!\overline{x})^2\}\]
を考えることとする.この値を分散といい,「$s^2$」で表す.「$s^2$」と2乗がついているのはすぐ後ろで説明する標準偏差がアルファベット $s$ で表され,その値の2乗であるという意味である.
分散の式を見るとわかるように,この値が「どのようなデータでも常に0になる」ということはないので,データのばらつきを見ることができそうである.
また,分散の正の平方根 $\sqrt{s^2}$ を,標準偏差(standard deviation)といい,$s$ で表す.
分散と標準偏差
分散 $s^2=\dfrac1n\{(x_1\!-\!\overline{x})^2\!+\!(x_2\!-\!\overline{x})^2\!+\!\cdots\!+\!(x_n\!-\!\overline{x})^2\}$
標準偏差 $s=\sqrt{\dfrac1n\{(x_1\!-\!\overline{x})^2\!+\!(x_2\!-\!\overline{x})^2\!+\!\cdots\!+\!(x_n\!-\!\overline{x})^2\}\ \ \ \ }$
3.2 分散の書き換え
分散は定義通りに手計算しようとするとなかなか骨が折れる場合が多い.ところが分散の式を少し変形することで,別の計算の仕方で求めることもできる.
簡単のためにデータ数を3とするが,データ数が $n$ の場合も計算は全く同じであり,十分に見通しが立つであろう.
\[\begin{align*} s^2&=\frac13\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+(x_3-\overline{x})^2\}\\[5pt] &=\frac13\{({x_1}^2+{x_2}^2+{x_3}^2)-2(x_1+x_2+x_3)\overline{x}+3\overline{x}^{\,2}\}\\[5pt] &=\frac{{x_1}^2+{x_2}^2+{x_3}^2}3-2\cdot\frac{x_1+x_2+x_3}3\cdot\overline{x}+\overline{x}^{\,2}\\[5pt] &=\frac{{x_1}^2+{x_2}^2+{x_3}^2}3-2\overline{x}^{\,2}+\overline{x}^{\,2}\\[5pt] &=\frac{{x_1}^2+{x_2}^2+{x_3}^2}3-\overline{x}^{\,2} \end{align*}\]
つまり分散 $s^2$ は
$s^2=$ (2乗の平均値) $-$ (平均値の2乗)
と計算しても求められるのである.
3.3 変量の変換
$a,b$ を定数とする.変量 $x$ を $y=ax+b$ で変換して新しい変量 $y$ を考えるとする.変量 $y$ の平均値,分散,標準偏差はどのようになるだろうか?
簡単のためにデータ数を3とするが,データ数が $n$ の場合も計算は全く同じであり,十分に見通しが立つであろう.
平均値
\[\begin{align*} y_1&=ax_1+b\\[5pt] y_2&=ax_2+b\\[5pt] y_3&=ax_3+b\\[5pt] \end{align*}\]
であるから,
\[\begin{align*} \overline{y}&=\frac13(y_1+y_2+y_3)\\[5pt] &=\frac13\{(ax_1\!+\!b)\!+\!(ax_2\!+\!b)\!+\!(ax_3\!+\!b)\}\\[5pt] &=a\cdot\frac{x_1+x_2+x_3}3+\frac13\cdot3b\\[5pt] &=a\overline{x}+b\\[5pt] \end{align*}\]
分散
\[\begin{align*} &y_1-\overline{y}=(ax_1+b)-(a\overline{x}+b)=a(x_1-\overline{x})\\[5pt] &y_2-\overline{y}=(ax_2+b)-(a\overline{x}+b)=a(x_2-\overline{x})\\[5pt] &y_3-\overline{y}=(ax_3+b)-(a\overline{x}+b)=a(x_3-\overline{x})\\ \end{align*}\]
であるから,変量 $x,y$ の分散をそれぞれ ${s_x}^2, {s_y}^2$ とすると,
\[\begin{align*} {s_y}^2&=\frac13\{(y_1\!-\!\overline{y})^2\!+\!(y_2\!-\!\overline{y})^2\!+\!(y_3\!-\!\overline{y})^2\}\\[5pt] &=\frac13\{a^2(x_1-\overline{x})^2+a^2(x_2-\overline{x})^2+a^2(x_3-\overline{x})^2\}\\[5pt] &=a^2\cdot\frac13\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+(x_3-\overline{x})^2\}\\[5pt] &=a^2{s_x}^2 \end{align*}\]
標準偏差
変量 $x,y$ の標準偏差をそれぞれ $s_x, s_y$ とすると,
\[s_y=\sqrt{a^2{s_x}^2}=|a|\sqrt{{s_x}^2}=|a|s_x\]
以上のように,1次式によって変換されたデータの統計量は,既存のデータの平均値,分散,標準偏差がわかれば簡単に求めることができるのである.
まとめ $a, b$ は定数とする.変量 $x$ を $y=ax+b$ で変換した新しい変量 $y$ について,$x,y$ の平均値を $\overline{x},\overline{y}$,分散を ${s_x}^2, {s_y}^2$,標準偏差を $s_x, s_y$ とすると, \[\begin{align*} \overline{y}&=a\overline{x}+b\\[5pt] {s_y}^2&=a^2{s_x}^2\\[5pt] s_y&=|a|s_x \end{align*}\]