2つの変数の間の関係を知りたい,という場面はよくある。そのような時には,散布図を描いてみることになる。
両者に因果関係があると予想される時は,X軸に原因,Y軸に結果を取る。
2つの変数の関係を相関関係と呼ぶ。相関関係の強さを表す値を相関係数と呼び,一般に r で表す。相関係数は -1 ≦ r ≦ 1 の値を取る。Excelには,相関係数を求める CORREL 関数が用意されている。
CORREL(Xデータ,Yデータ)
散布図の特徴と相関係数の関係は下図のようになる。
相関係数は,だいたい下表のように評価される。
r | 評価 |
---|---|
0.0〜±0.2 | ほとんど相関がない |
±0.2〜±0.4 | 弱い相関がある |
±0.4〜±0.7 | 相関がある |
±0.7〜±1.0 | 強い相関がある |
ただし,上の評価はあくまでも目安であり,全く異なった評価を与えなければならないケースは多い。例えば,棒温度計の液だめ上端からの液柱の長さと気温の相関係数が0.8だったら,相関係数が低すぎる。温度計としては使い物にならないはずだから,計測法か温度計の質を疑う。逆に,各地区における大気中の汚染物質濃度と原因不明の病気の発生件数の相関係数が0.2なら,「ほとんど相関がない」といって見逃すのは短絡的すぎるかもしれない。
もう一つ,相関関係と因果関係は違う。相関があるからといって因果関係があるとは限らない。例えば,みなさん個人の過去20年にわたる身長の推移は,大気CO2濃度の推移と「強い相関がある」と思われる。しかし,これが「自分の身長が伸びると大気CO2が増える」という因果関係を意味するわけではないのは当然。相関係数を根拠に因果関係の有無を判断してはならない(が,案外やらかしがちな誤り)。相関係数からわかるのは相関の強さだけである。
2つの変数の関係を関数で近似することを回帰と呼び,その関数を回帰式と呼ぶ。一次関数で回帰した場合は,「回帰直線」となる。
相関関係が認められる場合,回帰式は,片方の変数から他方を予測することに利用できる可能性がある。例えば,下図は,水中のカルシウムイオンの濃度と電気伝導度(電流の流れやすさ)測定器の出力値のデータである。
両者の相関係数は0.999995と非常に高い。イオンは電荷を持つので,これが多い水は電気を通しやすいからである。散布図と回帰直線を描いてみると,下図のようになる。
このような場合,カルシウムイオンの濃度がわからないミネラルウォーターを測定して,出力値を回帰式に代入すれば,カルシウムイオン濃度が高い精度で予測できる。
秋〜春にかけては,晴れの日が続くと,天気予報などで「火の元に気をつけましょう」という注意がよく流れるようになる。日本では,大陸の高気圧に覆われると乾燥して晴れた日が続きやすいためだと考えられる。では,日照時間が多いと本当に出火件数は増えるのだろうか。
データファイルには1980年〜2004年の東京における年間日照時間と全国の出火件数のデータがある。
データ範囲を選んで,「挿入」タブ → 「散布図」
見た目を整える。やり方は省略。
正の相関関係がありそうなのがわかる。すなわち,日照時間が多いほど,出火件数が増えるような傾向が見て取れる。
Excelの CORREL 関数を使って,セルE4に相関係数を求めてみよう。
相関係数 r = 0.72 である。強い正の相関関係があることがわかる。
両者の関係を回帰して,回帰式を求めてみよう。
データ点を選択し,右クリック。「近似曲線の追加」を選択。
散布図を見ると直線で近似できそうなので,「線形近似」を選択。回帰式を知りたいので,「グラフに数式を表示する」にチェックを入れて「閉じる」をクリック。