思考,快與慢:第18章 如何讓直覺性預測更恰當有效? · 1 線上閱讀

生活中,許多場合都會用到預測。經濟學家預測通貨膨脹和失業率,財務分析師預測收益,軍事專家預測傷亡人數,風險資本家預測利潤率,出版商和生產商預測讀者和消費人群,承包商預測項目完成所需的時間,工程師預測建造某建築需要的水泥量,火場指揮員預測撲滅大火所需的消防車數量。一些私人問題同樣需要用到預測,我們預測戀人在自己求婚時的反應,預測在新工作中需要作的自我調節。

有些預測判斷,比如那些工程師所作的預測,主要就是通過查找表格、精確計算以及對類似項目的結果進行仔細分析得來的。還有一些預測則需要直覺和系統1的共同參與,主要有兩種類型。有些直覺主要依靠反覆訓練得來的技能和經驗。加里·克萊因在《力量的源泉》(Source of Power)一書中及其他場合曾提到過象棋高手、火場指揮員和內科醫生所作的快速自動判斷及選擇,用以闡釋這種經驗性直覺,即由於識別出熟悉的線索,大腦中快速呈現出當前問題的解決方案。

還有些直覺有時從一開始就難以從主觀上進行區分。這種直覺受啟發法的影響,通常會用簡單的問題來替代難以回答的問題。即使證據很不充分,決定亦不可更改,人們依此作出直覺性判斷時往往也會信心十足。當然,許多判斷,特別是專業領域的判斷,受到了分析與直覺的共同影響。

 

偏離預測方向的直覺

讓我們再來看看下面這個老問題:

朱莉現在是一名州立大學4年級的學生。她4歲就能流暢地進行閱讀。她的平均績點(GPA)是多少?

熟悉美國教育體制的人很快就能得出一個數字,且這個數字通常在3.7或3.8左右。為什麼呢?原因在於,系統1的幾個機制共同參與了預測。

·人們會探尋證據(朱莉的閱讀能力)與預測目標(她的平均績點)之間是否存在因果關係。這種關係可能不是直接的。在這個例子中,很小就能閱讀與較好的平均績點都是學術天分的表現,必然會存在某種聯繫。你(你的系統2)可能會否定朱莉在高中曾經贏得釣魚比賽或是在舉重比賽中表現良好的說法。這個過程被有效地一分為二。系統1能夠摒棄那些無關或是錯誤的信息,但卻無法彌補證據中相對較小的瑕疵。因此,直覺性預測對證據的實際預測結果幾乎毫無感覺。一旦發現某種關聯,例如朱莉很小時就能閱讀,眼見即為事實原則就會發揮作用:你的聯想記憶會快速自動地運用可利用信息編出最恰當的故事。

·另外,證據的評估與相關規範聯繫緊密。4歲時閱讀能力就很強的孩子早熟嗎?什麼樣的名次或者說百分制下得多少分才能與這樣的能力相符?與這個孩子作比較的人群(我們稱之為參照人群)也沒能明確說明這一點,但與我們平時說話所遵循的規則相同。如果即將畢業於這所大學的某個人被贊為「相當聰明」,你幾乎不必問:「當你說他『相當聰明』時,腦子裡想到的是哪些參照人群呢?」

·下一部分包括替代和快速配對。對於兒童時期認知能力這個並不周密的證據進行評估的問題被替換成關於她大學平均績點問題的答案。朱莉的平均績點和她小時候就能閱讀這項能力的百分比值是相同的。

·這個問題明確規定答案必須在平均績點的範圍內,這也就要求另一個強度匹配的運作,即將你對朱莉的學術成就的總體印象與能證明她本人天賦的平均績點這一證據匹配起來。最後的步驟是轉化,將你對朱莉學術水準的印象轉化為相應的平均績點。

通過強度匹配得到的預測結果與支持這個預測的證據一樣極端,會導致人們面對兩個不同的問題卻給出相同的答案:

朱莉的早期閱讀能力成績是多少(百分制)?

朱莉的平均績點是多少(百分制)?

到目前為止,你應該很容易就能看出所有這些運作都是系統1的特點,我按照不同步驟依次將它們列在這裡,當然聯想記憶的大量激活並不遵循這一順序。你應該將這種記憶大量激活的過程想象為以下幾步:由信息和問題激發起聯想記憶,然後自我反饋,最後選定最具連貫性的合理性方案。

我與阿莫斯曾經在一個實驗中要求受試者對8位大學新生的相關描述作出判斷,這個描述是由一名輔導老師根據對新班級的訪談而寫成的。每個描述由5個形容詞組成,如下例所示:

聰明、自信、篤學、勤奮、好問

我們問了受試者下面兩個問題:

這個描述對你關於學術能力的想法有多大影響?

你認為這些關於新生的描述令你印象深刻的可能性有多大(百分制)?

這兩個問題要求你根據自己的標準對新生進行描述,將自己的描述與輔導老師的描述進行對比,進而評估上述描述。你自身的評判標準存在着重大影響。雖然你根本不知道自己如何形成這一評判標準的,但你對這條描述承載的熱情程度非常清楚:輔導老師認為這個學生是優秀的,但還算不上是最棒的,因為我們還有很多比「聰明」程度更深的形容詞(傑出、有創造力),也有很多比「篤學」程度更深的詞(博學的、淵博的),更有許多程度超過「勤奮」的形容詞(積極的、力求完美的)。由此可以推測,(該生)成績很有可能在前15%,但不太可能在前3%。人們在類似的判斷中得到的結果出奇地一致,至少在相同文化背景的人群中是這樣。

我們問了實驗中另一組受試者不同的問題:

你估計這個學生的平均績點是多少?

新生中取得較高平均績點的學生占多大比例?

你需要再三思考才能看出這兩組問題的微小差別。這種不同本該很明顯,但事實卻並非如此。第一組問題只要求你作出評估,第二組問題則與第一組不同,包含了很大的不確定性。這個問題指的是在大學一年級期末的真實表現。自訪談後,這一年發生了什麼呢?你怎樣才能以5個形容詞來預測這個學生在大學第一年的真實表現呢?如果這只是輔導老師本人通過與該生的訪談而作出的平均績點預測,那麼她的預測會準確無誤嗎?

這項研究旨在比較兩個判斷結果(百分比成績):受試者通過評估一個案例中的描述做出的判斷結果(百分比成績)和另一個案例中的最終預測結果。結論很明顯:兩個判斷結果完全相同。儘管兩組問題不同(一組關於該生的描述,另一組關於該生未來的學術表現),但受試者將這兩個問題看成了一個。與朱莉的例子相同,受試者並沒有將對未來的預測和對當前信息的估測區別開來—預測與估測相匹配。這也許是我們得到的能證明替換存在的最佳證據。當人們按要求預測時,他們總會將預測替換為對所描述問題的估測,而且沒有意識到他們回答的問題並不是那個被問到的問題。這個過程證明預測時會存在系統偏見;他們完全忽略了一點,即應該回歸到平均值上來。

在以色列國防軍隊服役期間,很長時間我都待在一支部隊裡,這支部隊通過一系列面試及實戰測試來挑選後備實訓軍官。成功預測的特定標準為這些人在軍官學校的最終成績。這些等級評定的效度非常低(我會在後面的章節詳細說明)。若干年後,這支部隊仍舊存在,而彼時我已成為一名教授,並且正與阿莫斯合作研究直覺性判斷問題。我一直與這支部隊的工作人員保持着密切聯繫,於是便請他們幫個忙。除了他們通常使用的評估候選人的評分系統以外,我還讓他們猜測每個學員將來在軍官學校中可能得到的分數。他們搜集了幾百份這樣的預測。所有作出這些預測的軍官都知道學校給學員評分時用的是字母評分系統,也知道所有學員得到的A、B、C各等級的近似比例。實驗結果令人驚訝:預測出來的A和B的頻率幾乎與學校的結業成績中的A、B等級的頻率等同。

這些發現提供了一個引人注目的例子,這個例子涉及替代和強度匹配兩個方面。作出預測的軍官完全將這兩個任務混淆在一起了:

·他們平時的任務是對候選人在該部隊的表現作出評價。

·我讓他們執行的任務是對候選人的未來成績作出切實預測。

他們運用強度匹配將自己的評級簡單地轉換為軍官學校的評分結果。由於無法解決預測中存在(相當大)的不確定性,他們的預測又一次完全無法回歸(平均值)。