データの分析で「xが10倍になったら平均とか分散がどうなるか」みたいな問題がとくでてくるんだけど,毎回考えないといけないの?
変量(xなど)を何倍かしたり何かを足したりすることを変量の変換といいます。
例えばこんな状況など。
- テストの採点が間違っていたので全員5点足した。
- 長さの値をkmからmの表示に変える(数字は1000倍になる)
- 気温の観測値を摂氏から華氏に変える(摂氏の気温を1.8倍して32を足すと華氏になる)
このように変換してつくった新たな変量について,平均・分散・標準偏差・共分散・標準偏差が,変換前の値からどのように変化するのか?を問う問題が非常によく出題されます。
だからといって,毎回考えて答えを求めていては時間がかかりすぎます。
この記事では,変量の変換が行われたあとの平均・分散・標準偏差・共分散・相関係数がどのように変化するかを,仕組みとともに一気に説明します。
これさえ読めば,変量の変換はもう怖くない!!
- 変量を変換した後の平均・分散・標準偏差・共分散・相関係数の求め方がわかる。
粗茶
- 文系に特化して数学を分かりやすく教える高校数学の専門家
- 指導歴14年
- 数学が苦手で何から始めたらいいか分からない文系高校生の悩みを解決するコンテンツを展開しています。
数学の問題集の進め方について、noteでも発信しています。よろしければご覧ください!
変量の変換公式
それでは,変量の変換を行ったとき,平均などの値がどのように変化するのか,順に紹介していきましょう。
ax+bの平均
まずは平均です。
変量xに対して新しい変量u=ax+bを定める。
uの平均を\overline{u},xの平均を\overline{x}とすると,
\large \overline{u}=a\overline{x}+b
全員の点数が2倍になれば平均も2倍になるし,全員の点数が5点上がれば平均も5点上がるので,感覚的にも理解しやすいかと思います。
(証明)
\begin{array}{lll} \overline{u}&=&\cfrac{1}{n}(u_1+u_2+\cdots+u_n)\\\\ &=&\cfrac{1}{n}\{(ax_1+b)+(ax_2+b)\cdots+(ax_n+b)\}\\\\ &=&\cfrac{1}{n}\{a(x_1+x_2+\cdots+x_n)+nb\}\\\\ &=&a\cdot\cfrac{x_1+x_2+\cdots+x_n}{n}+\cfrac{nb}{n}\\\\ &=&a\overline{x}+b \end{array}
これはまあ,そうだろうなって感じ。
ax+bの分散
続いて分散です。平均とは違って少し違和感があるかも?
変量xに対して新しい変量u=ax+bを定める。
uの分散を{S_u}^2,xの分散を{S_x}^2とすると,
\large {S_u}^2=a^2{S_x}^2
あれ,bはどこ!?
変量の変換で分散に影響するのは「何倍になったか」だけであり,「何を足したか」は分散に影響を与えません。
そのしくみを説明しておきます。
そもそも分散というのは,データの散らばり具合を表すものでしたね。
n個の値x_1,x_2,\cdots,x_nの平均を\overline{x}とすると,分散{S_x}^2は,
{S_x}^2=\cfrac{1}{n}\left\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots+(x_n-\overline{x})^2\right\}
これをuに置き換えて計算してみましょう。
uの平均がa\overline{x}+bであることも利用しますよ。
(証明)
\begin{array}{lll} {S_u}^2&=&\cfrac{1}{n}\left\{(u_1-\overline{u})^2+(u_2-\overline{u})^2+\cdots+(u_n-\overline{u})^2\right\}\\\\ &=&\cfrac{1}{n}\left[\{(ax_1+b)-(a\overline{x}+b)\}^2+\{(ax_2+b)-(a\overline{x}+b)\}^2+\cdots+\{(ax_n+b)-(a\overline{x}+b)\}^2\right]\\\\ &=&\cfrac{1}{n}\left[\{a(x_1-\overline{x})\}^2+\{a(x_2-\overline{x})\}^2+\cdots+\{a(x_n-\overline{x})\}^2\right]\\\\ &=&\cfrac{1}{n}\left\{a^2(x_1-\overline{x})^2+a^2(x_2-\overline{x})^2+\cdots+a^2(x_n-\overline{x})^2\right\}\\\\ &=&a^2\cdot\color{red}\cfrac{1}{n}\left\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots+(x_n-\overline{x})^2\right\}\\\\ &=&a^2\color{red}{S_x}^2 \end{array}
uと\overline{u}の両方に+bがついているので,引き算されるとbが消えてしまうというしくみになっているのです。
これはちゃんと覚えておかないと間違えそうだ。
ax+bの標準偏差
お次は標準偏差。これも一つ注意点が。
変量xに対して新しい変量u=ax+bを定める。
uの標準偏差をS_u,xの標準偏差をS_xとすると,
\large S_u=|a|S_x
え,絶対値ってどういうこと!?
標準偏差は分散にルートをつけたものなので,aS_xでいいんじゃないのかな?と思いそうですが,
ルートをつけるときに忘れてはいけない事実がありました。
\sqrt{a^2}=\left\{\begin{array}{ll}a&(a\geqq 0のとき)\\\\-a&(a<0のとき)\end{array}\right.
つまり,
\large \sqrt{a^2}=|a|
なにかの2乗のルートは,その数が負の可能性も考えて,絶対値がつくと覚えておきましょう。
この性質も利用しながら,標準偏差の証明です。
(証明)
\begin{array}{lll} S_u&=&\sqrt{{S_u}^2}\\\\ &=&\sqrt{a^2{S_x}^2}\\\\ &=&\sqrt{a^2}\sqrt{{S_x}^2}\\\\ &=&|a||S_x| \end{array}
ここで,標準偏差S_xは常に正であることから|S_x|=S_x,一方aは正の場合も負の場合もあるので,絶対値はついたまま。よって,
S_u=|a|S_x
となる。
ということで,標準偏差は|a|倍になります。
ax+bとcx+dの共分散
ここからは2つの変量を扱います。まずは共分散。
変量xに対して新しい変量u=ax+b,変量yに対して新しい変量v=cx+d定める。
uとvの共分散をS_{uv},xとyの共分散をS_{xy}とすると,
\large S_{uv}=acS_{xy}
やっぱりbとdは関係なくなるのね。
分散のときと同様で、共分散においても「何倍になったか」だけが影響します。
共分散というのは、分散の変量バージョンという感じでしょうか。
xの平均を\overline{x},yの平均を\overline{y}とすると,n組の値(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)の共分散は、
S_{xy}=\cfrac{1}{n}\left\{(x_1-\overline{x})(y_1-\overline{y})+(x_2-\overline{x})(y_2-\overline{y})+\cdots+(x_n-\overline{x})(y_n-\overline{y})\right\}
これをuとvに置き換えてやってみましょう。
(証明)
\begin{array}{lll} S_{uv}&=&\cfrac{1}{n}\left\{(u_1-\overline{u})(v_1-\overline{v})+\cdots+(u_n-\overline{u})(v_n-\overline{v})\right\}\\\\ &=&\cfrac{1}{n}\left[\{(ax_1+b)-(a\overline{x}+b)\}\{(cy_1+d)-(c\overline{y}+d)\}+\cdots+\{(ax_n+b)-(a\overline{x}+b)\}\{(cy_n+d)-(c\overline{y}+d)\}\right]\\\\ &=&\cfrac{1}{n}\left\{a(x_1-\overline{x})c(y_1-\overline{y})+\cdots+a(x_n-\overline{x})c(y_n-\overline{y})\right\}\\\\ &=&ac\cdot{\color{red}\cfrac{1}{n}\left\{(x_1-\overline{x})(y_1-\overline{y})+\cdots+(x_n-\overline{x})(y_n-\overline{y})\right\}}\\\\ &=&ac\color{red}S_{xy} \end{array}
変換された変量の共分散は、もとのac倍になるんですね。
ax+bとcy+dの相関係数
最後に相関係数です。
変量xに対して新しい変量u=ax+b,変量yに対して新しい変量v=cx+d定める。
uとvの標準偏差をr_{uv},xとyの標準偏差をr_{xy}とすると,
\large \left\{ \begin{array}{ll} ac> 0のとき,&r_{uv}=r_{xy}\\\\ ac<0のとき,& r_{uv}=-r_{xy} \end{array} \right.
あれ,aとcも無くなった!
相関係数は,2つの変量が比例関係にあるかどうかの度合いを表す指標です。
x,yの標準偏差をそれぞれS_x,S_y,xとyの共分散をS_{xy}とすると,xとyの相関係数は,
r_{xy}=\cfrac{S_{xy}}{S_xS_y}
相関係数は必ず-1以上1以下の値をとり,1に近いほど正の相関(xが大きいほどyも大きい傾向)が強く,-1に近いほど負の相関(xが大きいほどyが小さい傾向)が強くなります。
元の変量が何倍されていても相関係数が-1以上1以下の値をとることには変わりがないので,新しい変量の相関係数は,基本的には元の相関係数と同じになります。
ただし,acが負の場合は,相関係数の符号が逆になることだけは注意しましょう。
(証明)
\begin{array}{lll} r_{uv}&=&\cfrac{S_{uv}}{S_uS_y}\\\\ &=&\cfrac{acS_{xy}}{|a|S_x|c|S_y}\\\\ &=&\cfrac{ac}{|ac|}\color{red}\cfrac{S_{xy}}{S_xS_y}\\\\ &=&\cfrac{ac}{|ac|}\color{red}r_{xy} \end{array}
ここで,ac>0ならば,|ac|=acなので,
r_{uv}=\cfrac{ac}{|ac|}r_{xy}=\cfrac{ac}{ac}r_{xy}=r_{xy}
ac<0ならば,|ac|=-acなので,
r_{uv}=\cfrac{ac}{|ac|}r_{xy}=\cfrac{ac}{-ac}r_{xy}=-r_{xy}
相関係数は,acの符号だけ気にしていればいいから楽そうだね。
まとめ
この記事では,変量の変換(数字を足したりかけたり)をした場合に,平均・分散・標準偏差・共分散・相関係数がどのように変化するかを紹介しました。
まとめておくと、こうなりました。
xをax+b(a倍してb足した)にした場合,
- 平均もa倍になってb増える。
- 分散はa^2倍になる。
- 標準偏差は|a|倍になる。
さらにyをcy+dにした場合,
- 共分散はac倍。
- 相関係数は,ac>0なら変わらず,ac<0なら-1倍。
変量の変換は共通テストの問題で頻出。
難しそうに見えても,公式を知っていれば一瞬で答えを選ぶことができます。
かなりの時間短縮になるので,ぜひ覚えておきましょう。
さらに導出過程も知っておくと,暗記の助けになるだけでなく,忘れたときに自力で求めることもできるのでおすすめです!
このブログでは,自分で勉強しているとき,つまづきやすいポイントを解説。
「かゆいところに手が届く」情報を発信しています。
自分で勉強する際にオススメの参考書や,勉強が楽しくなる文房具も紹介していますので,よろしければご覧ください!