心理統計学の共分散・相関係数・回帰分析


統計学の共分散と相関係数

心理統計学の記事で、分散と標準偏差の計算法について説明しましたが、2つの変数の間の相関関係を調べる記述的指標として共分散があります。共分散(covariance)というのは二つの変数x,yの相関関係を調べる指標で、各変数の平均x1,y1との偏差の積を用いて計算します。偏差の積は(x-x1)(y-y1)の式で計算でき、各データで偏差の積を出してその値の総和Σを求め、データの数Nで割ります。x,yの値が、(4,8),(1,5),(5,4),(2,7)のようなデータがある場合には、xの平均は(4+1+5+2)÷4=3、yの平均は(8+5+4+7)÷4=6となり、共分散は(4-3)(8-6)+(1-3)(5-6)+(5-3)(4-6)+(2-3)(7-6)の総和を4で割れば計算できます。

xとyの相関関係を考えると、xの値が大きければ大きいほどyの値も大きくなる『正の相関関係』と、xの値が大きければ大きいほどyの値が小さくなる『負の相関関係』がありますが、共分散の数値が正であれば正の相関関係があり、数値が負であれば負の相関関係があるということになります。そのため、共分散の数値が正であるのか負であるのかを確認するだけで、二つの変数の間の大まかな相関関係を知ることができます。また、一つの変数(データ)の共分散は『分散(variance)』と等しくなり、分散にN-1で総和を除する不偏分散があるように、共分散にもN-1で総和を割る不偏共分散(unbiased variance)というものがあります。

二つの変数x,yの間に完全な正の相関がある場合には、“y=ax+b”のような比例式でデータ(測定値)の分布を表現することができ、その二つの変数の共分散はxとyの標準偏差(SD)の積で表すことができます。二つの変数の標準偏差を掛け合わせて積を求めることで、『共分散の絶対値が取る可能性のある最大値』を知ることができ、『共分散の値』は必ず『標準偏差の積(完全な正の相関・負の相関)』よりも小さくなります。

二つの変数の共分散を標準偏差の積で割った数値のことを『相関係数(correlation coefficient,rと表記)』といい、この相関係数のことを『ピアソンの積率相関係数(Pearson's product-moment correlation coefficient)』と呼ぶこともあります。一般的な表記方法では、共分散はsxy(Sを大きく書く)のように書き、rはrxy(Rを大きく書く)のように書きますが、rの取る値の範囲は-1≦r≦1となります。r=1の時は、y=ax+bのような右上がりの直線(比例)となり、r=-1の時は、y=-ax+bのような右下がりの直線(反比例)となりますが、相関係数の数値が0に近づくほどデータの分布のばらつきが大きくなります。

統計学の回帰直線と回帰分析

二つの変数x,yがある時には、(3,6)(3,8)のように同じxの値に対して異なるyの値を取ることがあります。しかし、xの値が決まった時の「平均的なyの値」を予測することは可能であり、“y=a+bx”のような直線の数式で表現することが出来ます。このyのことを『予測値(predicted value)』といい、予測値は『yの条件付き平均』としての意味を持ちます。“y=a+bx”の直線式は、変数xから変数yを予測できることを意味しており、この数式で示される直線のことを『回帰直線(regression line)』といい、傾きbのことを『回帰係数(regression coefficient)』といいます。

実際の統計データに合致するような回帰係数bと切片aを求めるためには、最小2乗法(least squares method)という方法を用いて『実際のy-予測値yの2乗の総和』を計算します。この計算結果が小さければ小さいほど、回帰直線と実際のデータの分布が近似していることになります。“予測値y=a+bx”なので、xが平均xと等しい時に、yの予測値も平均yと等しくなります。その結果、回帰直線は(平均x, 平均y)を通る傾きbの直線となりますが、実際のデータを回帰直線に当てはめて予測値を推測していくことで『回帰分析(regression analysis)』という作業を行うことができます。

回帰分析とは、従属変数(dependent variable)独立変数(independent variable)の間に回帰直線の数式を当てはめて、独立変数の変化による従属変数の変化を定量的に分析する手法のことです。独立変数というのは研究者が任意に設定できる数値(実験条件)であり、従属変数というのは独立変数に従って変化する結果としての変数のことです。独立変数のことを『結果の説明・予測』に用いられる変数ということで、予測変数(説明変数)と呼び、従属変数のことを目的変数(基準変数)と呼ぶことがありますが、回帰分析の主要目的は一方の変数から他方の変数を予測するという統計的推測にあります。

実際の従属変数yと予測値y1の間にはずれがでますが、y-y1の値を『残差(residual)・予測の誤差』といいますが、独立変数xと残差との間には相関関係はありません。回帰直線“y=a+bx”の傾きbは、b=r・Sy/Sx(rは相関係数、Sは標準偏差)の方程式で計算することが可能であり、切片aは、a=平均y-(b・平均x)の方程式が可能です。つまり、変数xとyそれぞれの標準偏差と共分散を計算しておけば、相関係数(共分散÷標準偏差の積)を簡単に出すことができます。そして、さきほど書いたb=r・Sy/Sx(rは相関係数、Sは標準偏差)の方程式に相関係数と標準偏差を当てはめれば、回帰直線の「傾きb」の値を算出できます。傾きbが計算できれば、a=平均y-(b・平均x)の方程式にbを当てはめて「切片a」の値を導き出すことができます。

回帰曲線とは『平均への回帰』を予測する曲線のことであり、相関係数が0に近いほど平均へ回帰する程度が大きくなります。つまり、正・負の相関が不完全であるほど実際のデータ(従属変数)と回帰曲線との間のずれが大きくなってくるということであり、相関係数が1・-1の場合には、実際のデータと回帰曲線が完全に一致するので『平均への回帰』の現象は起こりません。二つの変数の標準偏差が等しい場合には、回帰係数と相関係数は同じ値を取ることになります。しかし、相関係数はxとyに対して1つの決まった値しか取りませんが、回帰係数の場合には『yのxへの回帰直線』と『xのyへの回帰直線』という二つの直線を区別しなければならず、『回帰係数=傾きb』も二つの値を取ることになります。

Copyright(C) 2004- Es Discovery All Rights Reserved