【データの分析】変量の変換と平均・分散・標準偏差・共分散・相関係数

当サイトはアフィリエイト広告を利用しています。

学生の方

データの分析で「xが10倍になったら平均とか分散がどうなるか」みたいな問題がとくでてくるんだけど,毎回考えないといけないの?

変量(xなど)を何倍かしたり何かを足したりすることを変量の変換といいます。

例えばこんな状況など。

変量の変換の例
  • テストの採点が間違っていたので全員5点足した。
  • 長さの値をkmからmの表示に変える(数字は1000倍になる)
  • 気温の観測値を摂氏から華氏に変える(摂氏の気温を1.8倍して32を足すと華氏になる)

このように変換してつくった新たな変量について,平均・分散・標準偏差・共分散・標準偏差が,変換前の値からどのように変化するのか?を問う問題が非常によく出題されます。

だからといって,毎回考えて答えを求めていては時間がかかりすぎます。

この記事では,変量の変換が行われたあとの平均・分散・標準偏差・共分散・相関係数がどのように変化するかを,仕組みとともに一気に説明します。

これさえ読めば,変量の変換はもう怖くない!!

この記事を読むとわかること
  • 変量を変換した後の平均・分散・標準偏差・共分散・相関係数の求め方がわかる。
この記事を書いた人
粗茶
  • 高校数学・高校公民・中学社会担当の現役塾講師
  • 講師歴13年
  • 13年の指導経験で知った「生徒がつまづきやすいポイント」や「教科書よりも効率の良い解法」をわかりやすく発信しています。
目次

変量の変換公式

それでは,変量の変換を行ったとき,平均などの値がどのように変化するのか,順に紹介していきましょう。

ax+bの平均

まずは平均です。

ax+bの平均

変量xに対して新しい変量u=ax+bを定める。

uの平均を\overline{u}xの平均を\overline{x}とすると,

\large \overline{u}=a\overline{x}+b

全員の点数が2倍になれば平均も2倍になるし,全員の点数が5点上がれば平均も5点上がるので,感覚的にも理解しやすいかと思います。

(証明)

\begin{array}{lll}
\overline{u}&=&\cfrac{1}{n}(u_1+u_2+\cdots+u_n)\\\\
&=&\cfrac{1}{n}\{(ax_1+b)+(ax_2+b)\cdots+(ax_n+b)\}\\\\
&=&\cfrac{1}{n}\{a(x_1+x_2+\cdots+x_n)+nb\}\\\\
&=&a\cdot\cfrac{x_1+x_2+\cdots+x_n}{n}+\cfrac{nb}{n}\\\\
&=&a\overline{x}+b
\end{array}
学生の方

これはまあ,そうだろうなって感じ。

ax+bの分散

続いて分散です。平均とは違って少し違和感があるかも?

ax+bの平均

変量xに対して新しい変量u=ax+bを定める。

uの分散を{S_u}^2xの分散を{S_x}^2とすると,

\large {S_u}^2=a^2{S_x}^2
学生の方

あれ,bはどこ!?

変量の変換で分散に影響するのは「何倍になったか」だけであり,「何を足したか」は分散に影響を与えません。

そのしくみを説明しておきます。

そもそも分散というのは,データの散らばり具合を表すものでしたね。

分散

n個の値x_1,x_2,\cdots,x_nの平均を\overline{x}とすると,分散{S_x}^2は,

{S_x}^2=\cfrac{1}{n}\left\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots+(x_n-\overline{x})^2\right\}

これをuに置き換えて計算してみましょう。

uの平均がa\overline{x}+bであることも利用しますよ。

(証明)

\begin{array}{lll}
{S_u}^2&=&\cfrac{1}{n}\left\{(u_1-\overline{u})^2+(u_2-\overline{u})^2+\cdots+(u_n-\overline{u})^2\right\}\\\\
&=&\cfrac{1}{n}\left[\{(ax_1+b)-(a\overline{x}+b)\}^2+\{(ax_2+b)-(a\overline{x}+b)\}^2+\cdots+\{(ax_n+b)-(a\overline{x}+b)\}^2\right]\\\\
&=&\cfrac{1}{n}\left[\{a(x_1-\overline{x})\}^2+\{a(x_2-\overline{x})\}^2+\cdots+\{a(x_n-\overline{x})\}^2\right]\\\\
&=&\cfrac{1}{n}\left\{a^2(x_1-\overline{x})^2+a^2(x_2-\overline{x})^2+\cdots+a^2(x_n-\overline{x})^2\right\}\\\\
&=&a^2\cdot\color{red}\cfrac{1}{n}\left\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots+(x_n-\overline{x})^2\right\}\\\\
&=&a^2\color{red}{S_x}^2
\end{array}

u\overline{u}の両方に+bがついているので,引き算されるとbが消えてしまうというしくみになっているのです。

学生の方

これはちゃんと覚えておかないと間違えそうだ。

ax+bの標準偏差

お次は標準偏差。これも一つ注意点が。

ax+bの平均

変量xに対して新しい変量u=ax+bを定める。

uの標準偏差をS_uxの標準偏差をS_xとすると,

\large S_u=|a|S_x
学生の方

え,絶対値ってどういうこと!?

標準偏差は分散にルートをつけたものなので,aS_xでいいんじゃないのかな?と思いそうですが,

ルートをつけるときに忘れてはいけない事実がありました。

2乗の平方根
\sqrt{a^2}=\left\{\begin{array}{ll}a&(a\geqq 0のとき)\\\\-a&(a<0のとき)\end{array}\right.

つまり,

\large \sqrt{a^2}=|a|

なにかの2乗のルートは,その数が負の可能性も考えて,絶対値がつくと覚えておきましょう。

この性質も利用しながら,標準偏差の証明です。

(証明)

\begin{array}{lll}
S_u&=&\sqrt{{S_u}^2}\\\\
&=&\sqrt{a^2{S_x}^2}\\\\
&=&\sqrt{a^2}\sqrt{{S_x}^2}\\\\
&=&|a||S_x|
\end{array}

ここで,標準偏差S_xは常に正であることから|S_x|=S_x,一方aは正の場合も負の場合もあるので,絶対値はついたまま。よって,

S_u=|a|S_x

となる。

ということで,標準偏差は|a|倍になります。

ax+bとcx+dの共分散

ここからは2つの変量を扱います。まずは共分散

ax+bとcy+dの共分散

変量xに対して新しい変量u=ax+b,変量yに対して新しい変量v=cx+d定める。

uvの共分散をS_{uv}xyの共分散をS_{xy}とすると,

\large S_{uv}=acS_{xy}
学生の方

やっぱりbdは関係なくなるのね。

分散のときと同様で、共分散においても「何倍になったか」だけが影響します。

共分散というのは、分散の変量バージョンという感じでしょうか。

共分散

xの平均を\overline{x}yの平均を\overline{y}とすると,n組の値(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)の共分散は、

S_{xy}=\cfrac{1}{n}\left\{(x_1-\overline{x})(y_1-\overline{y})+(x_2-\overline{x})(y_2-\overline{y})+\cdots+(x_n-\overline{x})(y_n-\overline{y})\right\}

これをuvに置き換えてやってみましょう。

(証明)

\begin{array}{lll}
S_{uv}&=&\cfrac{1}{n}\left\{(u_1-\overline{u})(v_1-\overline{v})+\cdots+(u_n-\overline{u})(v_n-\overline{v})\right\}\\\\
&=&\cfrac{1}{n}\left[\{(ax_1+b)-(a\overline{x}+b)\}\{(cy_1+d)-(c\overline{y}+d)\}+\cdots+\{(ax_n+b)-(a\overline{x}+b)\}\{(cy_n+d)-(c\overline{y}+d)\}\right]\\\\
&=&\cfrac{1}{n}\left\{a(x_1-\overline{x})c(y_1-\overline{y})+\cdots+a(x_n-\overline{x})c(y_n-\overline{y})\right\}\\\\
&=&ac\cdot{\color{red}\cfrac{1}{n}\left\{(x_1-\overline{x})(y_1-\overline{y})+\cdots+(x_n-\overline{x})(y_n-\overline{y})\right\}}\\\\
&=&ac\color{red}S_{xy}
\end{array}

変換された変量の共分散は、もとのac倍になるんですね。

ax+bとcy+dの相関係数

最後に相関係数です。

ax+bとcy+dの相関係数

変量xに対して新しい変量u=ax+b,変量yに対して新しい変量v=cx+d定める。

uvの標準偏差をr_{uv}xyの標準偏差をr_{xy}とすると,

\large
\left\{
\begin{array}{ll}
ac> 0のとき,&r_{uv}=r_{xy}\\\\
ac<0のとき,& r_{uv}=-r_{xy}
\end{array}
\right.
学生の方

あれ,acも無くなった!

相関係数は,2つの変量が比例関係にあるかどうかの度合いを表す指標です。

相関係数

xyの標準偏差をそれぞれS_xS_yxyの共分散をS_{xy}とすると,xyの相関係数は,

r_{xy}=\cfrac{S_{xy}}{S_xS_y}

相関係数は必ず-1以上1以下の値をとり,1に近いほど正の相関(xが大きいほどyも大きい傾向)が強く,-1に近いほど負の相関(xが大きいほどyが小さい傾向)が強くなります。

元の変量が何倍されていても相関係数が-1以上1以下の値をとることには変わりがないので,新しい変量の相関係数は,基本的には元の相関係数と同じになります。

ただし,acが負の場合は,相関係数の符号が逆になることだけは注意しましょう。

(証明)

\begin{array}{lll}
r_{uv}&=&\cfrac{S_{uv}}{S_uS_y}\\\\
&=&\cfrac{acS_{xy}}{|a|S_x|c|S_y}\\\\
&=&\cfrac{ac}{|ac|}\color{red}\cfrac{S_{xy}}{S_xS_y}\\\\
&=&\cfrac{ac}{|ac|}\color{red}r_{xy}
\end{array}

ここで,ac>0ならば,|ac|=acなので,

r_{uv}=\cfrac{ac}{|ac|}r_{xy}=\cfrac{ac}{ac}r_{xy}=r_{xy}

ac<0ならば,|ac|=-acなので,

r_{uv}=\cfrac{ac}{|ac|}r_{xy}=\cfrac{ac}{-ac}r_{xy}=-r_{xy}
学生の方

相関係数は,acの符号だけ気にしていればいいから楽そうだね。

まとめ

この記事では,変量の変換(数字を足したりかけたり)をした場合に,平均・分散・標準偏差・共分散・相関係数がどのように変化するかを紹介しました。

まとめておくと、こうなりました。

変量の変換と平均などの変化

xax+ba倍してb足した)にした場合,

  • 平均もa倍になってb増える。
  • 分散はa^2倍になる。
  • 標準偏差は|a|倍になる。

さらにycy+dにした場合,

  • 共分散はac倍。
  • 相関係数は,ac>0なら変わらず,ac<0なら-1倍。

変量の変換は共通テストの問題で頻出。

難しそうに見えても,公式を知っていれば一瞬で答えを選ぶことができます。

かなりの時間短縮になるので,ぜひ覚えておきましょう。

さらに導出過程も知っておくと,暗記の助けになるだけでなく,忘れたときに自力で求めることもできるのでおすすめです!

 

このブログでは,自分で勉強しているとき,つまづきやすいポイントを解説。

「かゆいところに手が届く」情報を発信しています。

自分で勉強する際にオススメの参考書や,勉強が楽しくなる文房具も紹介していますので,よろしければご覧ください!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次