思考,快與慢:第17章 所有表現都會回歸平均值 · 2 線上閱讀

回歸現象的意義不亞於發現萬有引力

無論是沒有察覺還是解讀錯誤,這種回歸現象對人類而言總是很陌生的,因此直到萬有引力和微積分理論出現兩百年後,這種現象才為人們所理解。而且,是19世紀英國最偉大的科學家之一經過艱苦卓絕的努力才探索出這一重要規律的。

弗朗西斯·高爾頓(Francis Galton)爵士是19世紀英國著名的學者,也是達爾文的表兄。他發現並命名了回歸平均值的現象。1886年,他發表了《在遺傳的身長中向中等身長的回歸》,其中涉及對連續子代的種子大小的測量以及對子代株高和母本株高的比較。在對種子的研究中,他寫下了如下的話:

實驗結果看上去十分值得關注,在1877年2月9日的一次演講中,我就先於皇家科學院將這些結果用做一次演講的基本內容了。從這些實驗可以看出,子代的高度和母本高度似乎並不相關,但似乎前者比後者更趨於平均。如果母本較高,那么子代就會變矮;如果母本較矮,則子代就會變高。實驗顯示,子代向平均值的回歸與母本高矮的差異是成比例的。

皇家科學院是世界上最古老的獨立研究機構,高爾頓很期待該機構中博學的院士們也會對他那「值得關注的實驗觀察」感到驚訝。但真正值得關注的是,他為之驚訝的統計規律不過是像我們呼吸的空氣一樣稀鬆平常。回歸效應隨處可見,但是我們卻無法識別它們的真面目。高爾頓以子代高度的回歸現象為起點,逐漸發現當兩個測量值之間的關聯不是那麼完美時,此時也會出現這種回歸。他藉助了當時最傑出的幾位統計學家的幫助,且歷時多年才得出這一結論。

當按不同的標準衡量兩個變量時—例如體重和鋼琴技藝—如何測量這兩個變量之間的回歸是高爾頓要攻克的重大難題之一。要解決這一問題需要以人口作為參照標準。假設我們對某小學所有年級的100名兒童的體重和鋼琴技藝進行測量,然後將兩者按從高到低的順序分別進行排列。比如說,簡在鋼琴技藝中排第三名,但按體重則排第27名,那麼我們就可以說她彈鋼琴的水平比她的體重排名靠前。我們來作些假設,這樣就可以使這一現象更容易理解。

不管年齡幾何,

·鋼琴技藝高低僅僅取決於每周練習的時長。

·體重多少僅僅取決於冰激凌的攝入量。

·冰激凌攝入量和每周練習鋼琴的時長並不相關。

現在通過排行(按統計學家的說法是「標準分」),我們可以得出更多的等式:

體重=年齡+冰激凌消耗量

鋼琴技藝=年齡+每周練習時長

你會發現,當我們通過體重預測鋼琴技藝或通過鋼琴技藝預測體重時,就會出現回歸平均值的現象。如果知道湯姆在體重中排第12位(遠高於平均值),我們就可以(從統計學上)推測他比平均年齡要大,而且可能比其他孩子吃更多的冰激凌。如果知道芭芭拉的鋼琴技藝排第85位(遠低於平均值),我們就可以推測她應當比大多數孩子年齡小,而且每周練習的時間也少。

兩個值之間的「相關係數」指的是兩個值共有因素的相對比重。這個值在零和1之間浮動。我們擁有父母各一半的基因,對於像身高這種受環境因素影響很小的特徵來講,父母和子女的相關係數在0.5左右。下面的例子能幫助我們更好地了解相關係數:

·一個物體的型號用英制單位精確測量的結果與用公制單位精確測量的結果之間的相關係數為1。任何影響其中一個值的因素都會影響另一個。兩者享有同樣的決定性因素。

·美國成年男性自報的身高和體重之間的相關係數為0.41。如果將女性和兒童也包括進去,那麼相關度就會更高,因為性別和年齡都會影響身高和體重,這便使得共有因素所占比例增加。

·學術能力評估考試成績(SAT)和平均績點(GPA)之間的相關係數大約是0.6。然而,研究生的潛能測試與成功之間的相關性則小得多,這在很大程度上是因為這一群體的潛能差異比較小。如果每個人都有相似的潛能,那麼在衡量成功時,潛能的因素就不會占太大的比重。

·美國人收入和教育程度的相關係數約為0.4。

·家庭收入和他們電話號碼後4位之間的相關係數為零。

弗朗西斯·高爾頓用了好幾年的時間才確定相關性和回歸性並非兩個概念—它們只是從不同視角對同一個概念作出的闡釋。這個概念的原則很簡單,但是影響卻很深遠:只要兩個數值之間的相關度不高,就會出現回歸平均值的情況。為了闡釋高爾頓的卓見,我們來看一個例子,很多人都認為這個例子很有趣:

聰明的女人常常會嫁給不如她們聰明的男人。

如果你在朋友聚會時挑起這個話題,一定會引起熱烈討論,大家肯定都願意分享自己的看法。即使有些對統計學有所了解的人也會很自然地用因果關係去解釋這個現象。一些人認為高智商的女人為了避免和同樣高智商的男人競爭才這麼做;或者是在擇偶之時不得不妥協,因為同等智商的男人不願意與這些女人競爭……也許還會有其他更牽強的解釋。現在我們來看看下面的表述:

夫妻二人智商之間的相關性並不是絕對的。

這個觀點顯然是正確的,而且很無聊。誰會期待這樣一種相關性是絕對的呢?那就沒有什麼好解釋的了。不過,你認為有趣的觀點和你認為毫無意義的觀點又是等值的。如果夫妻二人智商之間的相關性並不是絕對的(如果男人和女人在平均智商上沒有差異),那麼從數學上來講,高智商女人嫁給那些不如她們智商高的男人是順理成章的(反之也成立)。對於這一現象,用回歸平均值效應來解釋要比用並不絕對的相關性來解釋更通俗,也更有說服力。

你也許很同情高爾頓這樣絞盡腦汁地解釋回歸的概念。統計學家戴維·弗里德曼(David freedman)曾說過,如果把回歸的概念用在民事或刑事審判中,那麼試圖對陪審團解釋「回歸」的一方一定會輸掉官司。為什麼會這樣呢?其中主要的原因也是本書中反覆出現的主題:我們的思維常會對因果關係的解釋帶有很強的偏見,而且不善於處理統計數據。當我們把注意力集中在某一事件上時,相關的記憶就開始探尋其原因—更確切地說,我們會對所有早已存在於記憶中的原因進行自動搜索。當發現有回歸效應時,因果關係解釋就會被激活,但事實上這些解釋都是不對的,因為回歸平均值雖然可以用來解釋現象,卻無法找出其中原因。在高爾夫錦標賽中,那些第一天成功的選手通常在第二天發揮都很糟糕,而這場比賽總會吸引我們的注意力。對於這種現象最好的解釋就是,那些選手第一天出奇地走運,不過這種解釋缺乏我們的大腦所認可的因果關係因素。事實上,那些能夠為回歸效應提供巧妙解釋的人往往賺得盆滿缽滿。如果一個商業評論員聲稱「今年的生意比去年要好,因為去年太糟了」,儘管他說得沒錯,但也很有可能很快就被電台噤聲。

我們理解「回歸」概念存在很多困難,這些困難皆源自兩個系統—系統1和系統2。在相當數量的案例中,即便提供了一些統計數據,若無特殊說明,「相關」與「回歸」的關係還是相當模糊的。因此,系統2認為理解這種關係很難。因為從某種程度上講,這是由於我們總是要求對事物進行因果關係解釋,這也是系統1的一個特徵。

抑鬱兒童喝了某種功能飲料,他們的情況在3個月內得到很大改善。

這個新聞標題是我杜撰的,但這則新聞所報道的內容卻是真實的:如果給一群抑鬱兒童喝了某種功能飲料的話,一段時間後,他們的病情會有很大的好轉。如果抑鬱兒童每天都花一段時間倒立,或是把一隻貓抱在懷裡20分鐘,這些舉動也可以使病情好轉。多數讀者讀了這則新聞之後會不由自主地認為:喝功能飲料和抱貓的行為的確使抑鬱兒童的病情得到了改善,但這個結論卻無法得到證實。抑鬱兒童是一個極端群體,他們比大多數其他兒童要壓抑得多—這些極端群體在一段時間之後會回歸平均水平。一連串的測試反映出來的不同壓抑程度之間並無絕對的相關性,因此回歸平均值(或者更確切地說是回歸平均水平)這種現象又會出現:即使他們不抱貓,也不喝功能飲料,一段時間之後這些抑鬱兒童的病情同樣會有所緩解。為了證明喝功能飲料或是其他治療方法是有效的,我們必須要對兩組患病兒童進行比較—實驗組接受了治療(比如喝過功能飲料),對照組沒接受過治療(或只是服用過安慰劑)。我們期望的是對照組僅通過回歸就能改善病情,而該實驗的目的在於判定接受治療的病人是否恢復得更快。

對回歸效應作出錯誤因果解釋的不僅僅是大眾讀者。統計學家霍華德。維納曾經列出一長串傑出研究者的名字,他們也犯過同樣的錯誤—將相關性和因果性混淆在一起。回歸平均值是科學研究中的常見問題,有經驗的科學家都會小心提防這種毫無緣由的因果推論所形成的陷阱。

在我最喜歡的那些關於直覺產生預測錯誤的例子中,有一個是根據馬克斯·巴澤曼(Max Bazerman)的《管理決策中的判斷》(Judgment in Managerial Decision Making)一書中的內容改編而來的:

假設你為一家連鎖百貨公司作銷售預測。所有連鎖店的規模和商品種類都非常相似,但是其地理位置、競爭狀況以及其他隨機因素使這些商品的銷量有所不同。下列數據為2011年的營業額,請你對2012年的營業額進行預測。你已經知道自己可以接受經濟學家所作的總體預測—銷售額總體會增長10%。那麼你將如何完成下列表格?

00011

讀過本章,你就知道將每家店的銷售額增加10%顯然是不對的。你應當使自己的預測具有回歸性:對於業績不好的店,預測增長率應高於10%;對於業績較好的店,預測值應低於這個值(甚至是負值)。不過如果你諮詢其他人的話,很有可能會碰釘子:這麼顯而易見的問題還有什麼好問的?正如高爾頓歷經艱難才發現的那樣,回歸的概念從來就不是顯而易見的。

示例—回歸平均值
「她說經驗教會她一個道理,批評比讚揚更有用。不過她不明白這是回歸平均值在發揮效用。」
「也許由於懼怕讓眾人失望,所以他的第二次面試沒有第一次那樣令人印象深刻,他第一次的表現太優秀了。」
「我們的篩選過程並不是很完美,所以我們會考慮回歸性。有些極其優秀的候選人也會讓我們失望,對此我們並不感到驚訝。」