データの分析

相関係数

散布図・共分散・相関係数の計算

データの分析の「相関係数」を、答えを先に押さえてから理解できる形に整理したページです。「散布図・共分散・相関係数の計算」でつまずきやすい点も含めて、学習の流れを短く確認できます。

数学Ⅰ 約14分 難易度 2 図つき

このページのまとめ

先に押さえておくこと

相関係数の要点をまとめたページです。先に答えを確認してから、解き方とつまずきやすい点を順にたどれます。

答えの要点

図と式の対応や答えの条件を、先に短く確認できます。

  • テーマ: 散布図・共分散・相関係数の計算
  • ポイント: データの分析の要点を、図と式を往復しながら確認しやすい記事です。
  • 次に読むなら: 関連ページ、またはアプリで類題演習

問題

次の表は、66人の生徒の数学と理科のテストの得点である。

生徒ABCDEF数学  x245793理科  y3548106\large\begin{array}{|c|c|c|c|c|c|c|} \hline 生徒 & A & B & C & D & E & F \\ \hline 数学\;x & 2 & 4 & 5 & 7 & 9 & 3 \\ \hline 理科\;y & 3 & 5 & 4 & 8 & 10 & 6 \\ \hline \end{array}

(1)(1)\quad このデータの散布図を描き、xxyyの間にどのような相関があるか答えよ。

(2)(2)\quad xxyyの共分散sxys_{xy}を求めよ。

(3)(3)\quad xxyyの相関係数rrを求めよ。

答えを見る

(1)  (1)\; 散布図は下図の通り。xxyyの間には正の相関\underline{\text{正の相関}}がある。

0 2 4 6 8 10 0 2 4 6 8 10 12

(2)  (2)\; sxy=5\underline{s_{xy} = 5}

(3)  (3)\; r=1517\underline{r = \dfrac{15}{17}}

解説

相関係数の問題について解説します。

まず、22種類のデータの関係を調べる方法について見ていきましょう。

22種類のデータの関係を調べる」ってどういうことですか?

例えば、「数学の点数が高い人は理科の点数も高い傾向があるのか?」ということを数値で調べるんだよ。

そのための道具が散布図、共分散、相関係数だよ。

相関係数の値はどう読み取ればいいですか?

目安として、r0.7|r| \geqq 0.7なら強い相関、0.4r<0.70.4 \leqq |r| < 0.7ならやや相関あり、r<0.4|r| < 0.4ならほとんど相関なしと判断するよ。

それでは、問題を解いていきましょう。

(1)(1)\quad このデータの散布図を描き、xxyyの間にどのような相関があるか答えよ。

与えられたデータを座標平面上にプロットします。

0 2 4 6 8 10 0 2 4 6 8 10 12

散布図を見ると、右上がりの傾向があるね。つまり数学の点数が高い人は理科の点数も高い傾向があるよ。

散布図が右上がりの傾向を示しているので、xxyyの間には正の相関\textcolor{red}{\text{正の相関}}があります。

(2)(2)\quad xxyyの共分散sxys_{xy}を求めよ。

共分散を求めるには、まず平均値を計算します。

xˉ=2+4+5+7+9+36=306=5\bar{x}=\dfrac{2+4+5+7+9+3}{6}=\dfrac{30}{6}=5
yˉ=3+5+4+8+10+66=366=6\bar{y}=\dfrac{3+5+4+8+10+6}{6}=\dfrac{36}{6}=6

次に、偏差(各データから平均を引いた値)の表を作ろう。この表を使うと計算がスムーズだよ!

各データの偏差を計算して表にまとめましょう。

xixˉ310242yiyˉ312240(xixˉ)(yiyˉ)9104160\large\begin{array}{|c|c|c|c|c|c|c|} \hline x_i-\bar{x} & -3 & -1 & 0 & 2 & 4 & -2 \\ \hline y_i-\bar{y} & -3 & -1 & -2 & 2 & 4 & 0 \\ \hline (x_i-\bar{x})(y_i-\bar{y}) & 9 & 1 & 0 & 4 & 16 & 0 \\ \hline \end{array}

3行目の合計は 9+1+0+4+16+0=309+1+0+4+16+0=30 なので、

sxy=16×30=5s_{xy}=\dfrac{1}{6}\times 30=\underline{5}

共分散が正の値だから、正の相関があるということですね!

その通り!共分散が正なら正の相関、負なら負の相関だよ。ただし共分散だけでは相関の強さがわかりにくいから、相関係数を使うんだ。

(3)(3)\quad xxyyの相関係数rrを求めよ。

相関係数は r=sxysxsyr=\dfrac{s_{xy}}{s_x \cdot s_y} で求めます。(2)(2)sxy=5s_{xy}=5 を求めたので、あとは sxs_xsys_y を計算しましょう。

先ほどの偏差の表に、(xixˉ)2(x_i-\bar{x})^2(yiyˉ)2(y_i-\bar{y})^2 の行を追加します。

xixˉ310242yiyˉ312240(xixˉ)29104164(yiyˉ)29144160\large\begin{array}{|c|c|c|c|c|c|c|} \hline x_i-\bar{x} & -3 & -1 & 0 & 2 & 4 & -2 \\ \hline y_i-\bar{y} & -3 & -1 & -2 & 2 & 4 & 0 \\ \hline (x_i-\bar{x})^2 & 9 & 1 & 0 & 4 & 16 & 4 \\ \hline (y_i-\bar{y})^2 & 9 & 1 & 4 & 4 & 16 & 0 \\ \hline \end{array}
sx2=9+1+0+4+16+46=346=173s_x^2=\dfrac{9+1+0+4+16+4}{6}=\dfrac{34}{6}=\dfrac{17}{3}
sy2=9+1+4+4+16+06=346=173s_y^2=\dfrac{9+1+4+4+16+0}{6}=\dfrac{34}{6}=\dfrac{17}{3}

あれ、sx2s_x^2sy2s_y^2が同じ値になりました!

偶然だけど、計算が楽になるね!sx=sys_x=s_yだから、sxsy=sx2=173s_x \cdot s_y = s_x^2 = \dfrac{17}{3} だよ。

よって、相関係数は

r=sxysxsy=5173=5×317=1517r=\dfrac{s_{xy}}{s_x \cdot s_y}=\dfrac{5}{\dfrac{17}{3}}=5 \times \dfrac{3}{17}=\underline{\dfrac{15}{17}}

15170.88\dfrac{15}{17} \fallingdotseq 0.88 であり、11にかなり近い値です。

相関係数が約0.880.88ということは、数学と理科の間に強い正の相関があるということだね。数学の点数が高い人は理科の点数も高い傾向が強いよ。

散布図に回帰直線(データの傾向を表す直線)を重ねると、相関の強さが視覚的にもよくわかります。

r = 0.882 0 2 4 6 8 10 0 2 4 6 8 10 12
このページのまとめ

ここでは、散布図・共分散・相関係数について学習しました。

相関係数を求めるには、偏差の表を丁寧に作ることがポイントです。計算量が多いので、表を活用してミスなく解きましょう!

また、相関係数は「22つの変量の間の直線的な関係の強さ」を表す値であり、1r1-1 \leqq r \leqq 1 の範囲をとることを覚えておいてくださいね。

アプリで続ける

この問題の「よくある質問」や「解法の鍵」は、アプリで読めます。

この問題に関するよくある疑問への回答や、解法のポイントをまとめた「解法の鍵」はアプリに収録しています。 類題演習やAIへの質問もアプリから使えます。相関係数 に近い内容をそのまま続けられます。

よくある質問 解法の鍵 類題演習 AIに質問

ストアからダウンロードして、同じ単元の演習やAI質問をそのまま続けられます。