2016年12月1日木曜日

平均への回帰の考察

平均への回帰を意識する!

歴史
回帰とは元来、生物データから見出された現象である。
子世代の種子重量は親世代と同じく正規分布に従い、また子世代種子の平均直径を親の平均直径に対してプロットすると直線に近い関係がある(現在でいう線形回帰が適用できる)。
しかし、子の平均直径は親の直径と比較すると、より全体の平均直径に近づく傾向がある(回帰)。
実際にはこの種子の大きさは遺伝による部分より偶然的変動が大きかったということである。
また、このような研究をヒトにも適用し、たとえば様々な分野の天才を調べ、彼らの子はほとんど常に親より平均に近くなることを見出した。さらに定量的で客観的な方法として、父親と息子の身長を比較し、やはり特別に高身長の父親でも、特別に低身長の父親でも、息子たちの身長は父親たちの身長より平均に近くなることを見出した。

普遍性
平均への回帰は普遍的な統計現象で生物や遺伝とは関係ない。また時間経過とも関係ない。特別高身長の人たちの「父親」の身長は、息子たちの身長より平均に近い。全体の身長の分布は、父親世代も息子世代も同じである。

数学的説明
X と Y をいずれも正規分布(平均0、分散1)に従うランダム変数とし、これらの相関係数をr とする。|r| <= 1である。正規分布の性質から、X の値が決まっている場合のY の期待値はX に比例する、すなわち E[Y|X]=rX 。ここで|r| < 1であるから、Y の期待値はX の観察値よりも0に近い。一般の確率分布についても同様の結果が得られる。
これは、2変数の相関が小さくなる(|r|が小さくなる)ほど、平均への回帰は顕著になる、ということを示している。つまり現在、相関を分析する方法として回帰分析、線形回帰などという言葉が用いられるが、元来の意味での「回帰」は、むしろ「相関が低い」ことを表しているのである。

回帰に関する誤解
回帰の誤謬(regression fallacies)とは、平均回帰に気づかずにデータの収集と解釈を行い、さも科学的根拠があるような誤った結論(改善効果があった、悪化が見られる、等)を出してしまうことをいう。
有名な例には統計学者Horace Secristの著書“The Triumph of Mediocrity in Business”(ビジネスにおける平凡さの勝利、1933年)がある。ここでは「競合するビジネスの利益率には時間平均に近づく傾向がある」という「経営学の法則」を示すために、膨大なデータを集めたが、実際のところ平均回帰の一例(あるいは盛者必衰の理?)を示したにすぎない。
よくありがちな誤謬には次のようなものがある。ある薬が成績を増すかどうかをテストしたい。まず生徒にテストをさせ、点数が最下位10%だった生徒たちに薬を与え、再度別のテストをさせる。すると平均成績が顕著に上がったという結果が得られる。しかしこれは薬の効果について何もいったことにならない。この例では薬なしの比較対照実験も可能だが、どちらの場合も同じことが起きるということがわかるだろう。

スポーツの世界では、よく2年目のジンクスという言葉を耳にする。例えば、野球で、新戦力として加入した新人選手が1年目に大活躍をした後、2年目になると1年目ほどの成績が挙げられないというものだ。これには、他チームがその選手のことを研究して対策を講じたため、とか、その選手が慢心して練習を疎かにしたためとか、いろいろな理由が考えられるのだが、統計学的に見れば、むしろ自然なことと言えるのかもしれない。新人1年目に大活躍するというのは滅多にないことで、2年目になれば2年目選手の平均的な成績に落ち着いていくのは当然のこと、と考えるのである。

このように「平均への回帰」を用いて、因果関係を説明しようとする際に、注意しておくべき点がいくつかある。

1つ目は、平均への回帰を過小評価してしまうケースだ。例えば、風邪にかかって体温を測ってみたところ高熱であったため、風邪薬を飲んだとしよう。その後、暫く経って体温が下がると、飲んだ風邪薬が効いたため、と考えがちだ。実は、体温を測ったのが風邪のピークの時で、風邪薬を飲まなかったとしても自然に体温は下がっていたかもしれない。しかし、そのようには、なかなか考えない。これは、「平均への回帰」を、過小に評価していると言える。

2つ目は、平均への回帰を過大評価してしまうケースだ。例えば、普通のコインを3回投げてみたら3回とも表が出たとする。このとき4回目は表が出るだろうか、裏が出るだろうか。そろそろ裏が出そうだ、という考えは平均への回帰に囚われている。普通のコインは常に半分ずつの確率で表と裏が出るはずであり、4回目も裏の出る確率は50%と見るべきだろう。そもそも、3回や4回といった少ない回数では、大数の法則は成り立たない。少ないサンプルに対して、集団の性質を強引にあてはめることは誤りであり、これは「少数の法則」と言われている。

3つ目は、発生した出来事に複雑な因果関係を想定して余分な説明をしてしまい、平均への回帰を無視してしまうケースだ。アメリカのある有名なスポーツ雑誌には、表紙を飾った選手がその後スランプに陥るというジンクスがあり、実際にそのような結果も計量的に示されている。これに、あれこれと理由をつけても、なかなか腑に落ちる説明には至らない。実はそもそも複雑な因果関係などなく、表紙を飾ったときがピークで、その後不調に陥っただけなのかもしれない。即ち、単に、平均への回帰が生じただけと考えれば、この現象を当然のこととして捉えることができる。

0 件のコメント: