starthome-logo 無料ゲーム
starthome-logo

統計研究の「関係がある」ってどういう根拠なの?「相関係数」をビジュアル解説


ナゾロジーの記事でもこれまで「勉強時間と成績」「健康と運動」「知能と収入」など多くの「関連性」を扱った科学ニュースをお届けしてきました。

新たに発表される関連性の中には、経験的に「そうじゃないかなぁ」と疑っていたことを実証してくれたり、思いもよらない意外な繋がりを教えてくれたりなど、非常に興味深いものが含まれています。

中には「なぜそんな関係を調べたのか?」と笑ってしまうものもあったでしょう。

こうした統計研究では、しばしば「関連性が強い」という表現を見かけますが、データ同士の関係性とはどのように理解すればいいのでしょうか?

おそらくデータ分析の研究に対して、「本当に関係があるの?」と疑う人もいるでしょう。

そこで今回は「相関関係」にフォーカスして、身近な物事から社会全体にかかわる現象まで、さまざまな関連性の強さをどのように理解したらいいのかを解説していきます。

目次

  • 相関係数をビジュアルで実感しよう!
  • 相関係数0.1~0.9の視覚的理解
  • 相関係数が高くても因果関係があるわけではない

相関係数をビジュアルで実感しよう!

(※グラフの視覚的理解を優先するために、各ポイントは正規分布からランダムに生成されたものを使用しています。つまり中央がもっともありふれた状態(密度が高い)となっています)
(※グラフの視覚的理解を優先するために、各ポイントは正規分布からランダムに生成されたものを使用しています。つまり中央がもっともありふれた状態(密度が高い)となっています) / Credit:川勝康弘

相関関係とは2つのデータの間にある関連性を指す言葉です。

そしてその相関関係の強さを表すのが、相関係数です。

そんなさまざまな現象の相関係数について語る前に、まずは相関係数というものを視覚的に確認してみましょう。

上の図は相関係数を、おおよそ0.1刻みで表示したものとなっており、相関係数が「-1(完全に逆相関)」から「1(完全に相関)」までが並べられています。

相関係数0の場合

相関係数0の場合
相関係数0の場合 / Credit:川勝康弘

グラフをみれば、相関係数0のグラフは中央に団子状に固まっており、横軸や縦軸の数値変化に対して、特定の「傾き」を見せることはありません。

たとえるならば、今日の朝ごはんのメニューの種類数とここ100年の間で観察された超新星爆発の頻度との関連性などが当てはまるでしょう。

自分の朝ごはんが超新星爆発に関連している人がいないかぎり、ポイントの集団に傾きがうまれることはありません。

相関係数1の場合

相関係数1の場合
相関係数1の場合 / Credit:川勝康弘

一方、相関係数が1のグラフは全てのポイントが直線状に整列しており、「横軸の値が○○ならば縦軸の値は絶対に✕✕になる」という完璧な比例が成立していることがわかります。

ただ現実問題として、2つの現象が完璧に相関することはなく、現実世界で相関係数が「1」に達する事例はほぼ存在しないと考えられます。

※相関係数が1の場合、例外が全く存在しないことを示しているからです

特にさまざまな要因が関係する社会学や心理学の分野において、相関係数が0.9以上になることは極めて稀となっています。

「絶対は存在しない」という言葉も、現実世界で相関係数1の現象がないことから言われているのでしょう。

ここまでは、誰もが納得する内容だと思います。

ビジュアル的にも団子と直線という明確な差が見て取れるからです。

では弱い相関に該当する、相関係数「0.1」や「0.2」はどうでしょうか?

相関係数0.1~0.9の視覚的理解

相関係数0.1~0.9の視覚的理解
相関係数0.1~0.9の視覚的理解 / Credit:川勝康弘

相関係数0.1~0.3の場合「弱い相関」

相関係数0.1~0.3の場合「弱い相関」
相関係数0.1~0.3の場合「弱い相関」 / Credit:川勝康弘

上の図は左から相関係数0.1、0.2、0.3のグラフの様子を視覚的に表示しています。

相関係数0のグラフと比べて、ポイント全体の分布に少し変化が現れているのがわかります。

しかしこの程度の変化は、ほとんど0の場合と見分けがつかないと言っていいでしょう。

そのため関係性を調べる統計研究においては一般に、相関係数が0.1~0.3の場合には、ほとんど相関関係がないか弱い相関と判断されます。

実際、全く無関係の現象の相関係数を調べた場合でも、誤差によって「0」以外の結果が得られることがほとんどです。

(※相関係数が低くても絶対に無関係というわけではありません)

そのため、低い相関係数でも関連性を主張したい場合には別途、誤差ではないことを示す別の証拠が必要となります。

相関係数0.4~0.6の場合「中程度の相関」

相関係数0.4~0.6の場合「中程度の相関」
相関係数0.4~0.6の場合「中程度の相関」 / Credit:川勝康弘

上の図の左から相関係数0.4、0.5、0.6となるグラフを示しています。

このあたりになると、多少なりともポイントたちの偏りが見て取れるでしょう。

実際、一般的には0.4を挟んで「弱い相関」から「中程度の相関」へと評価が変化します。

(※分野によって評価基準が異なることがあります)

ただ中程度の相関といっても、かなりのバラつきがあることに注意が必要です。

相関係数0.4でも、かなりのバラつきがある
相関係数0.4でも、かなりのバラつきがある / Credit:川勝康弘

たとえば0.4のグラフの場合。

X軸の値が0のときには、Y軸の値は-2から+2へかけて、つまりグラフで表示されているY軸範囲の過半に分布していることがわかります。

この結果はX軸に設定した、最もありふれた数値(中央値や平均値付近)でも、Y軸の数値の予測がかなり困難で、あまり参考にならないことを示しています。

0.4が弱い相関と中程度の相関の境目とされている理由は、このあたりにあると言えるでしょう。

相関係数0.5や0.6はより左下から右上という傾向が強くなっていますが、それでもバラつきは大きくなっています。

統計的には何らかの相関がみられても「個々のケースでの判断基準にするのは少し怖い」というのが中程度の相関に対する「感想」と言えるでしょう。

現実世界において、この範囲が該当する相関係数は非常に多く、例としては、自己肯定感と学業成績(0.4~0.6)、職場の満足度と生産性(0.4~0.6)、テレビ視聴時間と肥満度(0.4~0.6)、親の教育水準と子供の学業成績(0.4~0.6)、ストレスレベルと身体的健康(0.4~0.6)など多岐に及びます。

(※相関係数は研究によって異なる結果が得られますので上記の数値は一般的に言われる値になっています)

多くの人々にとってもテレビ視聴時間と肥満度などは「無関係ではないけど、例外も多いよなぁ」という印象があるでしょう。

相関係数0.7~0.9の場合「強い相関」

相関係数0.7~0.9の場合「強い相関」
相関係数0.7~0.9の場合「強い相関」 / Credit:川勝康弘

上の図では左から相関係数0.7、0.8、0.9を示しています。

この段階に至ると、ビジュアル的にも明白な傾向が現れ、偶然とはとても言えない段階に到達します。

また一般的な評価も0.7を境に「中程度の相関」から「強い相関」へと変化します。

実際、このレベルの相関係数になると、現実世界でも重要な決定に用いられることがあります。

たとえば「テストの点数」と「成績」では相関係数が0.7以上になることが報告されています。

そのため1~2回しか行われない入試テストの点数を、受験生の成績全体を現わす指標として合否判定を行う正当性が出てくるのです。

一方で、相関係数0.8の段階でもまだ、若干のバラツキが存在していることがわかります。

「テストでは能力が計れない」とする意見があるのも、相関係数0.8に至ってまだ回収しきれていないケースが多数、存在することが関連しているのでしょう。

一般に高い相関と言われているものには、気温とアイスクリームの売り上げ(0.8以上)、肥満と2型糖尿病リスク(0.7以上)、遺伝的類似性と身体的特徴(0.7以上)、気温とエアコンの使用量(0.7以上)などが知られています。

私たちが経験的に「当然だろう」と思うものの多くが相関係数0.7以上という数値と言えるでしょう。

統計研究などでは、これまで知られていなかったものに相関係数0.7以上の強い相関があることがわかると、しばしば大発見と見なされることがあります。

逆相関の場合

逆相関の場合
逆相関の場合 / Credit:川勝康弘

これまでは、横軸が増えたら縦軸がどれくらい増えるかといった、プラス方向の相関関係をみてきました。

しかし「タバコを吸う本数と寿命」のように、一方が増えると他方が減っていく関係も存在しています。

プラス方向の相関係数は「0から+1」の間で示されましたが、マイナスの関係にある場合の相関係数は「0~-1」の値で示されます。

また負の相関係数の場合にも同じように、弱い(-0.1~-0.3)、中程度(-0.4~-0.6)、強い(-0.7~0.9)が存在しており、-1となると完全な逆比例となります。

相関係数が高くても因果関係があるわけではない

共通の原因から発生する事象は、相関関係があると錯覚されやすくなっています
共通の原因から発生する事象は、相関関係があると錯覚されやすくなっています / Credit:川勝康弘

統計データを分析すると、夏にアイスクリームの売り上げが増えると同時に溺死事故の発生率も増加することが観察されるかもしれません。これは表面的には二つの変数間に正の相関関係があるように見えます(つまり、一方が増えるともう一方も増える)。

言うまでもないかもしれませんが、「アイスクリームの消費が溺死事故を引き起こす」と結論づけることは大きな誤りで実際には、夏という季節が共通の原因となっています。

このように共通の原因から発せられた相関関係がみられる事象には、しばしば因果関係があると錯覚してしまうので注意が必要です。

同様の相関関係があるものの因果関係がない例としては「ミニスカートの流行と株価」「ロシアの政治的トップの頭髪パターン(ツルフサ論)」「SNSの使用と幸福感」「新聞の購入と政治への関心」が知られています。

これらは調査によってしばしば高い相関がみられることがありますが、因果関係があるわけではありません。

全ての画像を見る

参考文献

複数の変数の関係性を見る
https://www.stat.go.jp/naruhodo/10_tokucho/hukusu.html

熊本県:相関係数
https://www.pref.kumamoto.jp/uploaded/attachment/13589.pdf

ライター

川勝康弘: ナゾロジー副編集長。 大学で研究生活を送ること10年と少し。 小説家としての活動履歴あり。 専門は生物学ですが、量子力学・社会学・医学・薬学なども担当します。 日々の記事作成は可能な限り、一次資料たる論文を元にするよう心がけています。 夢は最新科学をまとめて小学生用に本にすること。

編集者

海沼 賢: 以前はKAIN名義で記事投稿をしていましたが、現在はナゾロジーのディレクションを担当。大学では電気電子工学、大学院では知識科学を専攻。科学進歩と共に分断されがちな分野間交流の場、一般の人々が科学知識とふれあう場の創出を目指しています。

    Loading...
    アクセスランキング
    game_banner
    Starthome

    StartHomeカテゴリー

    Copyright 2024
    ©KINGSOFT JAPAN INC. ALL RIGHTS RESERVED.