「因果関係」と「相関関係」の違いを正しく理解する
「原因と結果」の経済学―――データから真実を見抜く思考法 中室 牧子 津川 友介 ダイヤモンド社 2017-02-16 |
ダイヤモンド社上村さまより献本いただきました。ありがとうございました。
「ビックデータ」という言葉が当たり前になってきた昨今ですが、本当に重要なのは、
この莫大なデータを用いて正しい原因と結果を導き出すこと、そして、その結果を元に次の行動を決めることです。
データを分析した結果、データ間の関係を表す言葉として「因果関係」と「相関関係」があります。
本書の定義を引用するとそれぞれ以下のようになります。
因果関係:2つのことがらのうち、どちらかが原因で、どちらかが結果である状態
相関関係:2つのことがらに関係があるものの、その2つは原因と結果の関係にないもの
この2つの違いを意識せずにデータを見てしまうと、誤った行動に出てしまうことになります。
本書の冒頭に記載されている事例を紹介すると、
メタボ検診を受けていれば長生きできる → 検診に行こう
テレビを見せると子供の学力は下がる → テレビを見せるのはやめよう
偏差値の高い大学へ行けば収入が上がる → いい大学へ行こう
経済学の研究によると、これらは因果関係ではなく、相関関係であり、それに伴う行動は
必ずしも正しいものにはなりません(理由やエビデンスは本書を参照)。
本書では、『因果推論』という「因果関係なのか、相関関係なのかを正しく理解するための方法論」を紹介しています。
「因果推論」を知ることで、「見せかけの因果関係」を見抜くことができ、思い込みや根拠のない通説に
とらわれることなく正しい判断をすることができます。
「原因と結果」を正しく判断するために本書は大変ためになります。
データから何かを導く必要があるビジネスパーソンにお勧めの一冊です。
■因果関係チェックポイントと反事実
因果関係なのか、相関関係なのかを疑うために本書で紹介されているチェックポイントが3つあります。
「まったくの偶然」ではないか
「第3の変数」は存在していないか
「逆の因果関係」は存在していないか
この中で個人的に一番難しいな、と感じているのは2つ目の『「第3の変数」は存在していないか』ということです。
見かけ上、関係がありそうな2つの変数に対して、他の変数の存在を疑うのは、中々難しいです。
特に自分で作ったものであれば、なおさら。
システム開発業界で言えば、ステップ数(プログラム行数)と生産性の関係などはまさにこれにあたるもの。
生産性をステップ数で測る慣習はあるものの、第3・第4の変数が存在するのは明らかです。
因果関係になっているかどうかを確かめる手段に「反事実」というものがあります。
これは「もし、○○をしなかったらどうなっていたか?」を示すもの。
現実的に完全な反事実を測定することは(タイムマシンがない限り)できないので、事実に対して
比較可能な状況を測定することになります。
そして、反事実と実際の事象を比較することで、因果関係の有無を確認します。
■科学的根拠(エビデンス)の階層
エビデンスとは因果関係の根拠となるものです。エビデンスレベルが高い順に以下の通りです。
メタアナリシス:複数のランダム化比較試験を統合したもの。最も確実に因果関係を証明することができる。
ランダム化比較試験:対象となる人をランダムに介入群と対照群に割り付けることで、因果関係を評価する方法。
自然実験と疑似実験:世の中にある「実験のような状況」をうまく利用することで、因果関係を評価する方法。
回帰分析:すでに手元にあるデータがあるときによく用いられる方法。交絡因子のデータが手元にあれば、その影響を取り除くことができる。
世の中にでている通説がどのエビデンスを用いて導き出されたものなのかを知るだけでも
間違った情報を鵜呑みにするリスクを回避することができます。
■疑似実験
エビデンスの中で一番実践しやすいのは回帰分析(重回帰分析含む)ですが、ここではその次にできそうな
「疑似実験」について紹介します。
<差の差分析>
介入を受けるグループ(介入群)と受けないグループ(対照群)において、介入前後の結果の差と
介入後の対照群の結果の差の2つの差をとる方法。
<回帰不連続デザイン>
恣意的に決定されたカットオフ値の両サイドで、介入群と対照群が分かれる状況を利用して
因果効果を測定する方法。
<マッチング法>
結果に影響を与えるような共変量を用いて、対照群の中から、介入群によく似たサンプルを
マッチさせて、比較する方法。複数の共変量がある場合は、その共変量をまとめて1つの得点に
したものを用いてマッチさせることもある(プロペンシティ・スコア・マッチング)。
文章にすると難しそうな方法ですが、それぞれとても実用的なものです(当たり前ですが)。
例えば、「差の差分析」などは以下の手順で行います。
・あることをやった群とやらなかった群にわける
・やった群のやる前後の値をとる(差①)
・やらなかった群の前後の値をとる(差②)
・差①ー差②が因果効果
この手順であれば、自分が測定したい群を2つ用意し、2つに対して測定すれば、データは取得できます。
■全体的な感想
私も仕事柄、回帰分析を利用した見積りやプロトタイプ開発から後続開発へ繋げるなどのことを
やっていますが、本書を読んでやり方を改めなければと思いました。
見直すポイントは因果関係ステップにある「比較可能になるように調整する」という点です。
プロトタイプ開発などでは、参加する人はどうしても「中身を知っていて手が動く人」が
中心になるため、 後続開発とは「比較可能」な状態ではありません。
比較可能な状態にするためには、初期のメンバー選定や「プロペンシティ・スコア・マッチング」を
利用した方法を取り入れる必要があります。
回帰分析にしても、他の変数を考慮したものができず、単なる相関関係を因果関係と間違って
捉えてしまう可能性がある(今までもあったかもしれませんが)ため、
今後データの収集方法・解析方法には注意していこうと思います。
■編集後記
献本いただいてから紹介するまでに大分時間が経ってしまいました。
折角いただいたのにすみません。
「因果推論」について、本書を読んで非常に興味がわいたので、本書の参考文献で紹介されている
以下の書籍も購入して読んでいこうと思います。
計量経済学の第一歩 — 実証分析のススメ (有斐閣ストゥディア) 田中 隆一 有斐閣 2015-12-17 |
岩波データサイエンス Vol.3 岩波データサイエンス刊行委員会 岩波書店 2016-06-10 |
コメント