思考,快與慢:第10章 大數法則與小數定律 · 1 線上閱讀

一項研究對美國3141個縣的腎癌發病率進行了調查,調查顯示該病的分布模式很值得注意。發病率最低的縣差不多都位於中西部、南部和西部人口稀少的鄉村,這些區域按照慣例由共和黨管轄。對此,你有何看法?

剛剛過去的幾秒鐘里,你的大腦處於非常活躍的狀態,這主要是因為系統2在運行。你謹慎地在記憶中搜尋着並作出假設。在這個過程中你也付出了一定的努力,你的瞳孔會擴張,心跳會適度加快。系統1也沒有閒着,因為系統2的運行需要從聯想記憶中獲取事實和建議。你很可能會否認共和黨的政策提供了腎癌防控方法這個想法,卻會關注腎癌發病率低的縣大多是鄉村這個事實。這個例子是我從機智的統計學家霍華德·維納(Howard Wainer)和哈里斯·澤維林(Harris Zwerling)那兒得到的,他們對這一案例的評論是:「人們很容易作出推斷,認為腎癌發病率低主要是由於鄉村的生活方式很健康—沒有空氣污染和水污染,食品沒有添加劑,保證新鮮。」這一點完全說得通。

現在,考慮一下腎癌發病率最高的縣的情況吧。假設這些易發病的縣差不多都位於中西部、南部和西部人口稀少的鄉村,這些區域按照慣例由共和黨管轄。霍華德·維納和哈里斯·澤維林半開玩笑地評論道:「人們可以很容易作出推斷,導致腎癌高發病率的直接原因是鄉村生活的貧困—醫療條件差、高脂肪飲食、酗酒、嗜煙等。」當然這種說法肯定有問題,因為鄉村生活方式不可能既是腎癌發病率高的原因又是其發病率低的原因。

問題的關鍵並不在於這些縣處在鄉村地區或是由共和黨掌管,而在於鄉村地區人口少。我們通過這個例子學到的不是流行病學知識,而是我們的大腦和統計數據之間的複雜關係。系統1非常擅長一種思維模式—自動且毫不費力地識別事物之間的因果聯繫,即使有時這種關係根本就不存在,它也會這樣認定。當聽到腎癌高發地區的情況時,你立刻會想當然地認為這些縣與其他縣不同是有原因的,一定有個理由可以解釋這種不同。然而,正如我們所見,當系統1面對「純統計學」的數據時是束手無策的,因為這些數據雖然可以改變結果出現的概率,卻不能直接導致結果的發生。

根據定義,一個隨機事件是不需要解釋的,但一連串的隨機事件就有規律可循。想象有一個裝有大理石彈球的瓮,其中有一半的彈球是紅色的,另一半彈球是白色的。然後,再想象有一個非常有耐心的人(或一個機器人)隨意從瓮中取出4個大理石球,記錄其中的紅球數,再把球放回去,重複這樣的做法數次。總結記錄結果時,你會發現「2紅2白」的結果出現的次數(幾乎剛好)是「4個全紅」或「4個全白」這種結果的6倍。這一倍數關係是個數學事實。你可以對這種從瓮中反覆抽樣的結果作出自信的預測,就像你能預測到用錘子砸雞蛋的結果一樣。儘管你無法預見蛋殼破碎的具體細節,但大概結果還是很確定的。兩件事的不同之處在於:你想到錘子砸雞蛋時感受到的那種明確的因果聯繫,在瓮中取樣的設想中是找不到的。

相關的統計學事實與癌症那個例子也有聯繫。兩個耐心的計數者輪流從瓮中取大理石球,傑克每次拿出4個球,吉爾拿出7個。他們都記錄了每次拿到相同顏色彈球的次數—要麼全白,要麼全紅。如果他們取球的做法持續的時間足夠長,傑克拿到同顏色大理石的次數會是吉爾的8倍(兩人的預期概率分別為12.5%和1.56%)。這個結果與錘子無關,也與因果聯繫無關,這僅僅是一個數學上的事實:一次拿4個彈球與一次拿7個相比,出現極端結果的概率更大。

現在,將美國人口想象成一個巨大的瓮中的彈球。有些球上標有KC(即Kidney Cancer的簡稱)字樣,表示腎癌。你抽取彈球樣本,並依次按照所在縣擺放,你會發現鄉村地區的樣本要比其他地區的少。如同傑克和吉爾所做的那個遊戲一樣,極端的結果(非常高或非常低的癌症發病率)容易出現在人口稀少的縣,這個故事告訴我們的就是這些。

我們從一個令人費解的事實說起:腎癌的發病率在各縣有所不同,且是有規律的,我用統計學理論對此作了解釋:相比於大樣本,極端的結果(高發病率和低發病率)更容易出現在小樣本中。這樣的解釋不存在因果聯繫。某縣的人口稀少既不會引發癌症,也不能避免癌症,只會使癌症的發病率比人口稠密地方的發病率更高(或更低)。這就是真相,沒什麼可解釋的。在某個人口稀少的縣,癌症發病率並非真的比正常情況更低或更高,只是這個縣正好在某個特殊的年份趕上了抽樣調查罷了。如果我們在第二年重複這樣的分析,也能預測到在小樣本中出現極端結果的一般模式,但在前一年癌症發病率高的縣,這一年發病率並不一定高。如果是這樣的話,則人口稠密或稀少的因素就無法對發病率作出解釋了:這些表面因素就是科學家眼中所謂的假象,即觀察結果完全依賴於調查方法的某一方面,在這個案例中,則依賴於樣本大小。

我剛才說的例子也許會令你驚訝,但這並不是真相初次大白於天下。你早就知道應該更相信大樣本,並且即使是對統計學一無所知的人也聽說過大數法則。但是「知道」並非是非抉擇問題,你可能會發現下列陳述放在自己身上很合適:

·當你閱讀這個關於流行病學的例子時,並沒有立刻注意到「人口稀少」這一特點與此次調查有何關聯。

·對於採用4個樣本還是7個樣本所產生的不同結果,你至少會感到有一點驚訝。

·即使是現在,想要確定下面兩個陳述句所說的完全是一回事,你也要費些腦力:

(1)大樣本比小樣本更精確。

(2)小樣本比大樣本產生極端結果的概率大。

第一個表述清晰地陳述了一個事實,但直到感受到第二個表述傳達給你的意思,

你才意識到自己並沒有真正理解第一個表述的意思。

上述內容概括起來就是:沒錯,你知道大樣本的結果更精確,但你現在可能才意識到你並不清楚為什麼它們更精確。不僅你一人如此,阿莫斯與我在一起進行的第一個研究表明,即使是經驗豐富的研究人員對樣本效應也缺乏直覺,要麼就是理解不到位。

 

小樣本的出錯風險可能高達50%

沒有接受過統計學方面訓練的人是出色的「直覺性統計學家」。我與阿莫斯在20世紀70年代早期的合作便始於對這個觀點的討論。他對我(在大學)的研究班及我本人講過,密歇根大學的一些研究人員對直覺性統計抱有樂觀態度。我個人對那個觀點有種強烈的感覺:那段時間我發現自己並不是一個出色的直覺性統計學家,但是我也不相信別人會比我好多少。

對於一個研究型心理學家來說,樣本變差沒有什麼特別的。它是個煩人且損失又大的麻煩事,會把每項實驗都變成一場賭博。試想你希望證明6歲女孩的平均詞彙量比同齡男孩的詞彙量更豐富的假設。這個假設從整體來說是成立的,女孩的平均詞彙量確實要比男孩的豐富一些。然而,儘管男孩與女孩差別很大,但你很可能會抽取到男女相差不太明顯的樣本,甚至會抽到一個男孩比女孩詞彙測試成績還要好的樣本。如果你是那個研究者,這個結果對於你來說代價就太高了,因為它浪費了你的時間和精力,卻無法證實一個實際正確的假設。使用一個足夠大的樣本是降低這種風險的唯一方法。選擇小樣本的研究者只能看自己是不是能選對合適的樣本了。

想要對樣本錯誤的風險作出評估,只需通過一個相當簡單的步驟就可以實現。然而按照慣例來看,心理學家並不是通過計算來選定樣本大小的。他們聽從自己的判斷,但這些判斷往往是錯的。在與阿莫斯發生意見分歧不久之前,我讀過一篇文章,文章通過生動的觀察結果展示了研究人員所犯的錯誤(他們現在仍在犯這種錯誤)。該文作者指出心理學家選擇的樣本通常都很小,致使他們有50%的風險不能夠證實其正確的假設,而任何研究人員都不會在頭腦清醒的情況下接受這種風險。對此有一個貌似正確的解釋,即心理學家對於樣本大小的決定反映了他們普遍存在的一個直覺性錯誤觀念,即對於樣本變差範圍的錯誤看法。

這篇文章令我十分震驚,因為我在自己的研究中碰到了一些問題,卻在這篇文章中找到了相關解釋。與大多數研究型心理學家一樣,我也墨守成規地選擇了一些過小的樣本,因此得到的實驗結果毫無意義。現在,我知道了原因:那些奇怪的結果實際上就是我這種研究方法的典型產物。我的錯誤特別令人尷尬,因為我教過統計學,也知道該怎樣計算樣本的大小,以便將風險降至可以接受的程度。但是,我從未通過計算來確定樣本大小。和我的同事一樣,我被傳統所禁錮,相信自己設計實驗的直覺,也從未認真考慮過樣本選擇會帶來的那些風險。阿莫斯來參加研討會時,我已經意識到自己的直覺是錯誤的。在研討會中,我們很快達成共識—密歇根的那些樂觀派是錯誤的。