【データの分析】変量の変換と平均・分散・標準偏差・共分散・相関係数

当サイトはアフィリエイト広告を利用しています。

学生の方

データの分析で「xが10倍になったら平均とか分散がどうなるか」みたいな問題がとくでてくるんだけど,毎回考えないといけないの?

変量(xなど)を何倍かしたり何かを足したりすることを変量の変換といいます。

例えばこんな状況など。

変量の変換の例
  • テストの採点が間違っていたので全員5点足した。
  • 長さの値をkmからmの表示に変える(数字は1000倍になる)
  • 気温の観測値を摂氏から華氏に変える(摂氏の気温を1.8倍して32を足すと華氏になる)

このように変換してつくった新たな変量について,平均・分散・標準偏差・共分散・標準偏差が,変換前の値からどのように変化するのか?を問う問題が非常によく出題されます。

だからといって,毎回考えて答えを求めていては時間がかかりすぎます。

この記事では,変量の変換が行われたあとの平均・分散・標準偏差・共分散・相関係数がどのように変化するかを,仕組みとともに一気に説明します。

これさえ読めば,変量の変換はもう怖くない!!

この記事を読むとわかること
  • 変量を変換した後の平均・分散・標準偏差・共分散・相関係数の求め方がわかる。
この記事を書いた人

粗茶

  • 文系に特化して数学を分かりやすく教える高校数学の専門家
  • 指導歴14年
  • 数学が苦手で何から始めたらいいか分からない文系高校生の悩みを解決するコンテンツを展開しています。
目次

変量の変換公式

それでは,変量の変換を行ったとき,平均などの値がどのように変化するのか,順に紹介していきましょう。

ax+bの平均

まずは平均です。

ax+bの平均

変量xに対して新しい変量u=ax+bを定める。

uの平均を\overline{u}xの平均を\overline{x}とすると,

\large \overline{u}=a\overline{x}+b

全員の点数が2倍になれば平均も2倍になるし,全員の点数が5点上がれば平均も5点上がるので,感覚的にも理解しやすいかと思います。

(証明)

\begin{array}{lll}
\overline{u}&=&\cfrac{1}{n}(u_1+u_2+\cdots+u_n)\\\\
&=&\cfrac{1}{n}\{(ax_1+b)+(ax_2+b)\cdots+(ax_n+b)\}\\\\
&=&\cfrac{1}{n}\{a(x_1+x_2+\cdots+x_n)+nb\}\\\\
&=&a\cdot\cfrac{x_1+x_2+\cdots+x_n}{n}+\cfrac{nb}{n}\\\\
&=&a\overline{x}+b
\end{array}
学生の方

これはまあ,そうだろうなって感じ。

ax+bの分散

続いて分散です。平均とは違って少し違和感があるかも?

ax+bの平均

変量xに対して新しい変量u=ax+bを定める。

uの分散を{S_u}^2xの分散を{S_x}^2とすると,

\large {S_u}^2=a^2{S_x}^2
学生の方

あれ,bはどこ!?

変量の変換で分散に影響するのは「何倍になったか」だけであり,「何を足したか」は分散に影響を与えません。

そのしくみを説明しておきます。

そもそも分散というのは,データの散らばり具合を表すものでしたね。

分散

n個の値x_1,x_2,\cdots,x_nの平均を\overline{x}とすると,分散{S_x}^2は,

{S_x}^2=\cfrac{1}{n}\left\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots+(x_n-\overline{x})^2\right\}

これをuに置き換えて計算してみましょう。

uの平均がa\overline{x}+bであることも利用しますよ。

(証明)

\begin{array}{lll}
{S_u}^2&=&\cfrac{1}{n}\left\{(u_1-\overline{u})^2+(u_2-\overline{u})^2+\cdots+(u_n-\overline{u})^2\right\}\\\\
&=&\cfrac{1}{n}\left[\{(ax_1+b)-(a\overline{x}+b)\}^2+\{(ax_2+b)-(a\overline{x}+b)\}^2+\cdots+\{(ax_n+b)-(a\overline{x}+b)\}^2\right]\\\\
&=&\cfrac{1}{n}\left[\{a(x_1-\overline{x})\}^2+\{a(x_2-\overline{x})\}^2+\cdots+\{a(x_n-\overline{x})\}^2\right]\\\\
&=&\cfrac{1}{n}\left\{a^2(x_1-\overline{x})^2+a^2(x_2-\overline{x})^2+\cdots+a^2(x_n-\overline{x})^2\right\}\\\\
&=&a^2\cdot\color{red}\cfrac{1}{n}\left\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots+(x_n-\overline{x})^2\right\}\\\\
&=&a^2\color{red}{S_x}^2
\end{array}

u\overline{u}の両方に+bがついているので,引き算されるとbが消えてしまうというしくみになっているのです。

学生の方

これはちゃんと覚えておかないと間違えそうだ。

ax+bの標準偏差

お次は標準偏差。これも一つ注意点が。

ax+bの平均

変量xに対して新しい変量u=ax+bを定める。

uの標準偏差をS_uxの標準偏差をS_xとすると,

\large S_u=|a|S_x
学生の方

え,絶対値ってどういうこと!?

標準偏差は分散にルートをつけたものなので,aS_xでいいんじゃないのかな?と思いそうですが,

ルートをつけるときに忘れてはいけない事実がありました。

2乗の平方根
\sqrt{a^2}=\left\{\begin{array}{ll}a&(a\geqq 0のとき)\\\\-a&(a<0のとき)\end{array}\right.

つまり,

\large \sqrt{a^2}=|a|

なにかの2乗のルートは,その数が負の可能性も考えて,絶対値がつくと覚えておきましょう。

この性質も利用しながら,標準偏差の証明です。

(証明)

\begin{array}{lll}
S_u&=&\sqrt{{S_u}^2}\\\\
&=&\sqrt{a^2{S_x}^2}\\\\
&=&\sqrt{a^2}\sqrt{{S_x}^2}\\\\
&=&|a||S_x|
\end{array}

ここで,標準偏差S_xは常に正であることから|S_x|=S_x,一方aは正の場合も負の場合もあるので,絶対値はついたまま。よって,

S_u=|a|S_x

となる。

ということで,標準偏差は|a|倍になります。

ax+bとcx+dの共分散

ここからは2つの変量を扱います。まずは共分散

ax+bとcy+dの共分散

変量xに対して新しい変量u=ax+b,変量yに対して新しい変量v=cx+d定める。

uvの共分散をS_{uv}xyの共分散をS_{xy}とすると,

\large S_{uv}=acS_{xy}
学生の方

やっぱりbdは関係なくなるのね。

分散のときと同様で、共分散においても「何倍になったか」だけが影響します。

共分散というのは、分散の変量バージョンという感じでしょうか。

共分散

xの平均を\overline{x}yの平均を\overline{y}とすると,n組の値(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)の共分散は、

S_{xy}=\cfrac{1}{n}\left\{(x_1-\overline{x})(y_1-\overline{y})+(x_2-\overline{x})(y_2-\overline{y})+\cdots+(x_n-\overline{x})(y_n-\overline{y})\right\}

これをuvに置き換えてやってみましょう。

(証明)

\begin{array}{lll}
S_{uv}&=&\cfrac{1}{n}\left\{(u_1-\overline{u})(v_1-\overline{v})+\cdots+(u_n-\overline{u})(v_n-\overline{v})\right\}\\\\
&=&\cfrac{1}{n}\left[\{(ax_1+b)-(a\overline{x}+b)\}\{(cy_1+d)-(c\overline{y}+d)\}+\cdots+\{(ax_n+b)-(a\overline{x}+b)\}\{(cy_n+d)-(c\overline{y}+d)\}\right]\\\\
&=&\cfrac{1}{n}\left\{a(x_1-\overline{x})c(y_1-\overline{y})+\cdots+a(x_n-\overline{x})c(y_n-\overline{y})\right\}\\\\
&=&ac\cdot{\color{red}\cfrac{1}{n}\left\{(x_1-\overline{x})(y_1-\overline{y})+\cdots+(x_n-\overline{x})(y_n-\overline{y})\right\}}\\\\
&=&ac\color{red}S_{xy}
\end{array}

変換された変量の共分散は、もとのac倍になるんですね。

ax+bとcy+dの相関係数

最後に相関係数です。

ax+bとcy+dの相関係数

変量xに対して新しい変量u=ax+b,変量yに対して新しい変量v=cx+d定める。

uvの標準偏差をr_{uv}xyの標準偏差をr_{xy}とすると,

\large
\left\{
\begin{array}{ll}
ac> 0のとき,&r_{uv}=r_{xy}\\\\
ac<0のとき,& r_{uv}=-r_{xy}
\end{array}
\right.
学生の方

あれ,acも無くなった!

相関係数は,2つの変量が比例関係にあるかどうかの度合いを表す指標です。

相関係数

xyの標準偏差をそれぞれS_xS_yxyの共分散をS_{xy}とすると,xyの相関係数は,

r_{xy}=\cfrac{S_{xy}}{S_xS_y}

相関係数は必ず-1以上1以下の値をとり,1に近いほど正の相関(xが大きいほどyも大きい傾向)が強く,-1に近いほど負の相関(xが大きいほどyが小さい傾向)が強くなります。

元の変量が何倍されていても相関係数が-1以上1以下の値をとることには変わりがないので,新しい変量の相関係数は,基本的には元の相関係数と同じになります。

ただし,acが負の場合は,相関係数の符号が逆になることだけは注意しましょう。

(証明)

\begin{array}{lll}
r_{uv}&=&\cfrac{S_{uv}}{S_uS_y}\\\\
&=&\cfrac{acS_{xy}}{|a|S_x|c|S_y}\\\\
&=&\cfrac{ac}{|ac|}\color{red}\cfrac{S_{xy}}{S_xS_y}\\\\
&=&\cfrac{ac}{|ac|}\color{red}r_{xy}
\end{array}

ここで,ac>0ならば,|ac|=acなので,

r_{uv}=\cfrac{ac}{|ac|}r_{xy}=\cfrac{ac}{ac}r_{xy}=r_{xy}

ac<0ならば,|ac|=-acなので,

r_{uv}=\cfrac{ac}{|ac|}r_{xy}=\cfrac{ac}{-ac}r_{xy}=-r_{xy}
学生の方

相関係数は,acの符号だけ気にしていればいいから楽そうだね。

まとめ

この記事では,変量の変換(数字を足したりかけたり)をした場合に,平均・分散・標準偏差・共分散・相関係数がどのように変化するかを紹介しました。

まとめておくと、こうなりました。

変量の変換と平均などの変化

xax+ba倍してb足した)にした場合,

  • 平均もa倍になってb増える。
  • 分散はa^2倍になる。
  • 標準偏差は|a|倍になる。

さらにycy+dにした場合,

  • 共分散はac倍。
  • 相関係数は,ac>0なら変わらず,ac<0なら-1倍。

変量の変換は共通テストの問題で頻出。

難しそうに見えても,公式を知っていれば一瞬で答えを選ぶことができます。

かなりの時間短縮になるので,ぜひ覚えておきましょう。

さらに導出過程も知っておくと,暗記の助けになるだけでなく,忘れたときに自力で求めることもできるのでおすすめです!

 

このブログでは,自分で勉強しているとき,つまづきやすいポイントを解説。

「かゆいところに手が届く」情報を発信しています。

自分で勉強する際にオススメの参考書や,勉強が楽しくなる文房具も紹介していますので,よろしければご覧ください!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次