一言以蔽之:《雜訊》主要的內容是告訴讀者如何減少決策時的雜訊。
《雜訊:人類判斷的缺陷》這本書,是諾貝爾經濟學獎得主——丹尼爾·康納曼的大作,他的另外一本《快思慢想》也是知名的暢銷書。本文記錄一下我的讀書心得,其中『』的詞是中譯本裡面的原文,舉的例子則是我自己寫的,不是書本裡面的。
(1) decision noise到處都有,無法避免。
(2) Var(error) = Var(bias) + Var(noise)
= Var(bias) + Var(level_noise) + Var(pattern_noise) + Var(occasion_noise)
其中Var()是variance,『error誤差』、『bias偏誤』、『noise雜訊』。而noise包括:
- 『level noise水準雜訊』——不同面試官給分標準不同,面試官甲和乙都給臺大畢業生10分,但面試官甲給清大畢業生9分、而面試官乙給清大畢業生8分。
- 『pattern noise型態雜訊』——不同面試官重視的不同,面試官甲重視學歷、面試官乙重視研究成果。
- 『occasion noise場合雜訊』——面試官今天心情好,今天給分標準都比昨天寬鬆。
(3) 『群眾智慧效應』(wisdom-of-crowds effect):增加決策人員的數目,可以減少noise的影響。因為中央極限定理:當sample size變大N倍以後,stdev會縮小為1/sqrt(N)。
(4) 上述(3)要成立的條件是各個決策人員要是independent,然而真實社會中是有『社會影響』的。比如電影上映第一週的口碑會影響後面看電影觀眾的口碑;在會議中第一個發言的人會影響其他人的意見。因此,社會影響的dependency會降低群眾智慧效應的好處。
(5) 承(3)&(4),如果同一個人做多次的決策,也有平均的效果,但由於不同時間的自己其實並不independent,所以『內心中的群體』效果沒有真正群體效果好。
(6) 諸葛亮智力100/武力40、廖化智力80/武力80。人類判斷會覺得諸葛亮比較強,因為人們覺得「100跟90的差異」比「70跟60的差異」大,人類使用的非線性模型。機器判斷會覺得廖化比較強,因為機器覺得「100+40」比「80+80」小,機器使用的是線性模型。研究顯示,人類的複雜規則,效果並沒有機器的簡單規則來的好。這是因為機器沒有noise,人類有時用max(智力,武力)的algorithm,有時用(智力*2+武力*1)/3的algorithm來評價,在不同場合/時間使用不同的decision model。
(7) 承(6),當我們使用max(智力,武力)這個model時,令人想起『光環效應』(halo effect),我們常常過度重視把單一技能樹點滿的專業人才,而忽略了把各條技能樹都點了一、二格的整合人才。較為正確的做法是,在面試前就先想好這個headcount要招募人選的特質,預先制定出decision model,要招募軍師就定model為(智力*2+武力*1)/3、要招募將軍就定model為(智力*1+武力*2)/3,在面試結束後,利用先前定好的model來評價。
(8) 『客觀的無知』(objective ignorance):考慮應徵者的面試評價和錄取後的考績,研究指出相關係數只有0.28,但主管調查卻覺得相關係數高達0.80。這意味著人類對自己的判斷『過度自信』。一個知名的過度自信例子,就是80%的人覺得自己的開車技術是top 20%。
(9) 『過度追求連貫性』(excessive coherence):在餐廳看到下面這樣的菜單,我們會說:「我要點牛排,因為很好吃,它雖然比較貴,但這是正常的,因為牛排本來成本就高。」
- 牛排 $90
- 豬排 $70
- 雞排 $50
但如果在餐廳看到下面這樣的菜單,我們會說:「我要點雞排,因為牛排實在是太貴了。」
- $90 牛排
- $70 豬排
- $50 雞排
我們只是把品項和價格的順序對調,就得到天差地遠的結論,這是因為人類常常看到第一印象後就驟下決定且不易變更,也只有這樣,心理才能維持一開始那個故事(理由)的連貫性。
(10) 『配對預測』(matching prediction)的捷思是我們常用的,但這只適用於線索與結論相關係數很高的case。當線索對結論的相關係數不夠高的時候,建議直接選擇『外部觀點』(主要是指基本率或是mean value)來下結論。舉例來說,某男生很常運動,你覺得他的身高有多高?看到這題,一般我們就直覺地回答一個相對高的數字(例如直覺是180cm)。雖然運動的確對長高有幫助,但相關係數遠比不上遺傳、營養等來的重要,所以這題的最佳猜測是平均身高(173.53cm)。
(11) 承(10),一個更好的猜測algorithm如下:
- 倘若線索完全沒有幫助,也就是運動與身高的相關係數=0,那麼就猜他的身高為173.53cm。
- 倘若線索有一些幫助,例如運動與身高的相關係數=0.1,那麼就猜他的身高為173.53*0.9+180*0.1=174.18cm。
- 倘若有更多線索,例如還知道他的父母也都很高,線索與身高的相關係數=0.4,那麼就猜他的身高為173.53*0.6+180*0.4=176.12cm。
- 要記住,線索很難能充分到讓相關係數極高,因此猜測的數字通常很靠近平均身高,這也是為什麼在(10)裡面說基本率是很好的決策結論。
(12) 優越的判斷者有這三個特徵:『訓練有素、比較聰明、有正確認知風格』。訓練有素指的是在領域中的專家,聰明指的是GMA、IQ比較高的人,正確認知風格指的是open-minded。
(13) 『挑選』和『總合』可以提高決策的品質。如果要招募應屆畢業生來建立一個新的類比設計團隊,首先要挑選滿足(12)特徵的人選,例如優秀大學畢業、名類比實驗室訓練、有開放心態的學生,但還要挑選與前面這些人選有差異的人,例如有系統設計訓練、有程式語言經驗、有半導體製程背景的學生,以這種方式組成的團隊有更好的決策品質,因為就像瞎子摸象,每個人看到不同的面向,組合起來反而可以把全貌看得更清楚。
(14) 傳統的(非結構化的)人才招募面試,過度重視面試感覺而輕忽抽象資料(忽略測驗成績),然而面試的雜訊很多,比如第一印象會嚴重影響面試的走向和結果。因此,本書建議使用結構化的人才招募,包括『分解、各個面向獨立評估、延遲做出整體判斷』三條原則。舉例來說,我們在應屆畢業生的人才招募時,可以把評分分解成幾項做獨立評估(學歷、在校成績、發表期刊等級、面試報告表現、臨場回答反應),其中「學歷/成績/期刊」使用機械化的公式『評分量表』來避免雜訊,再來我們使用『相對評等判斷』來排序多位應徵者以避免水準雜訊(避免每位主管的絕對標準不同),最後用『總合』多位主管的意見來做決策。
(15) 我們已經知道減少雜訊會對決策的正確性有幫助,但以下是一些我們會放棄(或不致力於)減少雜訊的情況。
(15a) 減少雜訊的成本過高:大學入學作文考試評分是由二個老師給分取平均,倘若二個分數差太多,還要找第三個老師,這是因為這個評分影響學生很大。但在一般學校內的期中考作文給分,通常都是由單一個老師給分。也就是說,除非決策錯誤的代價很大,否則我們不願意浪費多一個評審的資源成本。
(15b) 機械化評分公式有害於尊嚴:在(14)已經知道機械化公式對減少雜訊有幫助,但人們不能接受沒有差異化、個人化的公式。比如應屆畢業生招募有一條規定說,無法得到教授的推薦函則不錄取,這是為了避免收到未來很難co-work的員工。倘若有學生就是跟指導教授處得很不好,但他的學歷、研究都很好,卻因沒有推薦函而不錄取,此時學生心裡會很難接受,甚至面試官自己也會覺得規則沒有彈性是不對的。
(16) 承(15b),我們會覺得有一些『裁量權』還不錯,那到底什麼時候該用硬邦邦的rule規定?什麼時候該用有彈性的principle準則呢?這取決與(15a)的成本,看『決策成本』、『錯誤成本』是否高昂。