貝葉斯定理,這個看似簡單的公式,有著各種奇妙的運用,深深影響了我們決策的質量,甚至改變我們的命運。從人生選擇,到投資創業,再到人工智慧,貝葉斯定律可能是對世界影響最大的公式之一。
《數學思考法:解析直覺與謊言》 作者:[日]神永正博 譯者:孫慶媛
篩查中的“需詳細檢查”
如果你是 X 先生,那麼當醫生告訴你“需詳細檢查”時,感到焦慮是很自然的事情。實際得了癌症的病人,臨床診斷為“需詳細檢查”的比率大約是 90%。瞭解這一點之後,當你在檢查中遇到類似情況時,就會感覺自己也有很大的可能是患上了癌症。事實是否如此呢?這件事生死攸關,因此有必要在這裡好好論證一下。
說到“比率”,最常見的就是超市裡的“降價 30%”“八折大減價”等促銷招牌。之所以超市經營者都採用這種表達方式,是因為顧客大都能夠根據這上面的降價比例,計算出降價之後商品價格大約會是多少。雖然日常生活中我們很少意識到這一點,但是這件事反映出普通民眾對“比率”這個數學概念的理解還是很到位的。這本身就是一件很了不起的事情。
不過,在比率的概念裡,也有一些普通人很難搞清楚的計算方式。以計算鹽水的濃度為例,假如讓初中生來回答以下這個問題,想必給出的答案會五花八門。
問題:如果把 100 g 濃度 5% 的鹽水,和 400 g 濃度 3% 的
鹽水混合,那麼最終配成的鹽水濃度是多少?
肯定有學生會把答案寫成“4%”,他們的邏輯很簡單,取 5% 和3% 的中間值,那就是 4% 了。這個想法很容易理解,但是很遺憾,他們的答案是錯誤的。
正確答案是 3.4%。計算過程如下。
首先計算鹽水中鹽的總重量,即
0.05x100+0.03x400=5+12=17g
其次計算鹽水的總重量,即100+400=500 g。因此,鹽水的濃度為:
在這個例子中,單憑直覺是很難得出正確答案的。要得出最終的比率,必須經過周密計算。
這種比率的計算稍顯複雜,但是還有較之比率計算更加複雜的,那就是機率。怎樣理解機率?沿用上文中癌症篩查的例子,在這個例子中,有一個非常重要的、關於機率的數字希望大家一定預先理解清楚。這個數字就是被診斷為“需詳細檢查”的病人實際上真的得了癌症的機率。這個概念確實有點兒晦澀難懂。即使是搞數學的,如果不經過計算的話,也是搞不清楚的。我們還是以本節開頭的 X先生的日記為例,來闡述一下這個機率該如何計算。
首先,我們需要給 X 先生的故事再增加一些假設。類似這樣,事件 A 在另外一個事件 B 已經發生的條件下的發生機率,就叫作“條件機率”。增加了假設條件以後,我們現在要解決的問題就變成:在被診斷為需詳細檢查的前提條件之下,該病人確實患了癌症的條件機率是多少。
在上述假設條件之下,現在可以來思考 X 先生患上癌症的機率了。先大致估算一下,大家覺得是高於 50%,還是低於 50% 呢?如果完全憑直覺來看的話,應該是超過 50% 的吧。因為罹患癌症的病人,被診斷為需詳細檢查的機率是 90% ;而沒有患上癌症,卻因為出現陽性反應而需要詳細檢查的機率是 10%。也就是說,只要診斷報告上出現“需詳細檢查”,就意味著有 90% 的機率是得了癌症……是這樣的吧?當然,如果稍微冷靜一會兒,你也可能會這樣安慰自己:“不要緊,現實中應該也有一部分幸運的人,雖然醫生也要求他們做詳細檢查,但是結果什麼事情都沒有。”然而,即使用這種樂觀的想法努力讓自己沉住氣,但在這種生死攸關的大事上,一般人也還是難以安心吧!
在這些紛繁的思緒之中,你可能會在某個瞬間想到,既然這些資料都有,道理也都懂,那就趕快計算一下實際的機率好啦。但是,真實情況是,即使是數學的研究者,也不一定聽一遍問題就能馬上計算出來。所以,現在靜下心來,我們來一步一步地認真思考一下。
出現陽性反應卻未罹患癌症的機率
首先,我們將假設條件 1、2、3 拆解開來。
假設 1 中,每 1000 人中罹患癌症的病人只有 1 人,也就是發病率為 0.1%。從這個假設來看,罹患癌症的比例其實非常小。
假設 2 中,罹患癌症的病人被診斷為需詳細檢查,即化驗呈陽性的機率是 90%。乍一看,這種表述佷容易讓人誤以為是癌症病人被檢查出來的機率很高。其實不然,認真讀一下的話,這個假設條件其實說的是,確實得了癌症的人在初次篩選檢查時,其診斷結果為需詳細檢查的機率是 90%。
假設 3 中,實際上沒有患癌,但是卻被誤檢出陽性反應,即假陽性情形發生的機率為 10%。
圖 9 用樹狀圖把這三個假設條件清晰地表現了出來。
根據圖 9 的推理,確實患有癌症,並且化驗結果呈陽性的機率,計算結果是0.1%x90%=0.09%。而並沒有得癌症,但化驗結果呈陽
性的誤報機率是99.9%x10%=9.99%,即“未患癌症的機率”ד未患癌症但呈陽性反應的機率”。
而化驗結果呈陽性的機率,則是這二者之和,即 0.09%+9.99%=10.08%。在所有呈陽性反應的人中,實際罹患癌症的機率則約為 0.9%。計算過程如下:
也就是說,X 先生患上癌症的機率,其實還不到 1%,比他預想的機率要低很多很多。看到這個還算令人欣喜的結果,X 先生應該能夠鬆一口氣了吧!
下面,我們再來參考一下現實生活中醫學篩查的機率資料。由於年齡、地域、性別的不同,資料會略有偏差,不過胃癌篩查中確診為胃癌的機率,即胃癌發病率大約為每 1000 人中有 1 人。而接受X 光檢查之後,診斷為需進行更詳細檢查的機率為 11% 左右。這樣看來,現實中的機率數字和前面所舉的例子基本上相同。
現在,再回到專業的數學領域,類似我們在上文中進行的這種邏輯推理方式,被稱為“貝葉斯定理”。貝葉斯定理是為了逆轉事件的時間順序而提出的一個定理。一般的邏輯是從事件的原因推匯出結論,而貝葉斯定理卻恰恰相反,是從結論逆向推導原因。更具體地說,在機率的計算中,貝葉斯定理是從事件的結果來推算導致事件發生的原因的機率,而非一般情況下的從原因來推算結果的機率。比如前面的癌症診斷的例子中,我們的推導就是從結果,即診斷中呈陽性反應這一事件的機率,來反向推匯出原因,即接受診斷的病人確實患有癌症這一事件的機率。貝葉斯定理的一般數學表述其實是更為簡單的形式,但是其中蘊含的邏輯與此是一致的。
貝葉斯定理推匯出的結論經常會讓人覺得很意外,與自己的直覺判斷大相徑庭。比如 X 先生患胃癌的機率實際不到 1%,和他自己的猜測差距就很大,原因何在?
下面我們還是用胃癌篩查的例子來說明。這裡我們把假設條件稍微變動一下。假定 n 年以後,胃癌篩查的醫學技術已經取得極大進展,如果病人確實患有癌症的話,有一種檢測方法確診率可以達到 100%。這種全新的檢測手段,其近乎完美的精確程度,是前面案例中的陳舊的胃癌篩查方式根本無法企及的。這種技術可以使患有癌症的病人,在化驗時出現陽性反應的機率上升到 100%。而另一種情況,即沒有患病但在化驗時出現陽性反應的誤報機率,仍然維持在與上文相同的 10% 的水平。
假設 n 年以後的我,接受了這個全新的胃癌檢測,但是很不幸,結果呈陽性。那個時候的我,應該會很震驚吧!這可是精確度100% 的檢查啊,也就意味著我一定是患上了癌症,不是嗎?不要著急,在做出判斷之前,最好還是像之前一樣,畫一個樹狀圖來梳理驗證一下,看自己的理解是否正確。圖 10 的樹狀圖就可以很好地幫助我們計算“診斷結果呈陽性的病人,實際確實患上了癌症的機率
根據圖 10 的推導,診斷呈陽性的病人實際患癌的機率可以如下計算:
結果為 0.99%,可以看到,這個數字也不是很大,還沒到 1%。因此,即使採用了確診率為 100% 的檢測手段,並且計算得出的機率略高於之前的檢測方法的 0.89% 的機率,但也還遠遠沒有高到令人絕望的程度吧?
在這兩個案例中,一般人的思維都很容易聚焦在“罹患癌症的病人化驗結果呈陽性的機率”這個特定數字上,也就是前面所說的90%、100% 這兩個數字,因而容易得出錯誤的主觀判斷。但是,如果靜下心來梳理邏輯,並進行周密計算的話,就會發現這個數字其實沒那麼重要。真正對結果有重大影響的數字,是並未患癌但化驗結果呈陽性,即通常所說的假陽性的機率。這個機率也可以說是為了避免在檢查時漏掉實際患癌的病人而允許的容錯空間吧。在我們使用的例子中,這個數字是 10%。在算式中,這個數字的大小才真正對最終的機率數字產生了較大影響。
垃圾郵件過濾器
貝葉斯定理的原理很簡單,但是在日常生活中的應用卻非常廣泛。最具代表性的應用例子就是垃圾郵件過濾器。利用貝葉斯定理來對垃圾郵件進行區分的技術,在計算機領域被稱為“貝葉斯過濾器”。
一般的電子郵件歸類的過程應當是這樣的。當你收到一封電子郵件,貝葉斯過濾器就會根據對標題或內容的分析將其區分為“垃圾郵件”或者“普通郵件”。不過,有一些郵件雖然是認識的人發來的,但內容卻是沒有價值的“垃圾”,這類郵件也許你也會把它列為“心理性的垃圾郵件”。因此,在最早期的垃圾郵件過濾技術中,一定程度上還需要依賴人工辨別。
如果認真研究垃圾郵件的話,就會發現,這類郵件中大多數都包含一些特定的詞語。比如,郵件的標題中含有“免費”這個詞語時,可以認為這封郵件有很高的機率是商業推廣的垃圾郵件。含有性暗示相關詞語的郵件,也很有可能是垃圾郵件。類似這樣,某些特定的詞彙可以被視作區分垃圾郵件的特徵。在本書中,我們把含有這類詞彙的郵件簡稱為“特徵標識”郵件 7。
在這種情況下,垃圾郵件分類的問題就會轉化為,在接收到的郵件帶有特徵標識的條件下,計算此郵件為垃圾郵件的機率是多少。這就和上文中癌症篩查的案例相同,變成了一個計算條件機率的數學問題。如果該條件機率值高於一定的預設基準值(如 90%),則該郵件可判定為垃圾郵件。常見的垃圾郵件過濾器的執行原理正是基於這一基本規則,將可疑度較高的郵件分類到垃圾郵件資料夾中。
在這個執行原理中,“90%”這個基準值被稱為“臨界值”。臨界值的設定需要非常謹慎。如果這個值設定得過高,即使垃圾郵件的特徵標識很明顯,可疑度非常高,也有可能被漏掉;如果設定得過低,則特徵標識度很低的郵件、稍微可疑的郵件也都有可能被分入垃圾郵件資料夾。
下面這個具體案例可以幫助我們更好地瞭解垃圾郵件過濾器的執行規則。
X 先生的電子郵箱中,接收到的垃圾郵件的數量佔整體的30%。其中,又有 30% 的垃圾郵件,其標題中包含有“免費”一詞。
而 70% 的正常郵件中,也有大約 1% 的郵件標題含有“免費”一詞。在這種情形下,如果 X 先生收到一封含有“特徵標識”的新郵件(即郵件標題中包含“免費”一詞),如何計算這封郵件確實是垃圾郵件的機率呢?同樣,使用胃癌檢測案例中的推理方法,可以繪製如圖 11 的樹狀圖,來幫助我們思考。
首先,計算確實是垃圾郵件且帶有“特徵標識”的機率,即30%x30%=9%。其次,計算不是垃圾郵件但也帶有“特徵標識”的機率,即 70%x1%=0.7%。因此,X 先生收到的新郵件帶有“特徵標識”的機率,總計為9%+0.7%=9.7%。最後,我們可以求得:
即一封含有“特徵標識”的新郵件確實是垃圾郵件的機率為93% 左右。這樣的話,假設臨界值定為 90%,那麼這個數字就高於臨界值,因而可以將這封郵件歸類為垃圾郵件。
最終,這個分類是否正確,還需要郵箱的持有人 X 先生自己來判斷。系統根據使用者每次的判斷結果不斷糾正更新自己的資料庫。與此同時,條件機率的計算過程中的相關數字也隨之不斷更新,這就是垃圾郵件過濾器的完整的工作機制。
人們在買彩票的時候,往往都懷揣一夜暴富的美夢,即使心底裡明明知道這是一件機率多麼小的事情,但還是會幻想自己中了頭獎以後欣喜若狂的景象。一等獎獎金 3 億日元!儘管現實中中頭獎的機率極其低,但是看到這些頗具煽動性的數字,我們發熱的頭腦中往往就會不自覺地誇大自己中獎的可能,進而毫不猶豫地掏出鈔票去買彩票。“只關注個別的機率,而忽視了整體的機率”,這就是我們總是難以看清事物本質的原因。閱讀完本節內容之後,當你再看到那些很具有煽動性的、誇張的數字時,請先冷靜下來,去計算一下真正的機率是多少,相信你將極有可能得出截然相反的結論。
《機率論沉思錄》
作者:埃德溫·湯普森·傑恩斯
譯者:廖海仁
著名數學物理學家,聖路易斯華盛頓大學和斯坦福大學教授,統計力學和機率統計推斷方面權謀埃德溫·湯普森·傑恩斯,40年思想著作;
無數讀者苦等15年的機率論神作,英文版豆瓣評分9.4高分;
機率論作為邏輯的延伸,是所有科學推斷的基礎。本書收集了機率統計的各種線索,將機率和統計推斷融合在一起,用新的觀點生動地描述了機率論在物理學、數學、經濟學、化學和生物學等領域中的廣泛應用,尤其是闡述了貝葉斯理論的豐富應用,彌補了傳統機率論和統計學的不足,並揭開了眾多悖論背後的玄機。
01
《數學女孩的秘密筆記:機率篇》
作者:[日]結城浩
譯者:衛宮紘
熱門科普讀物《數學女孩》作者結城浩的系列新作之一
絕讚的數學科普書
在生動的故事中理解數學概念
在活潑的對話中感受數學之美
透過投擲硬幣、抽撲克牌等日常謎題,領悟機率的奇妙
02
《貝葉斯的博弈:數學、思維與人工智慧》
作者:黃黎原
譯者:方弦
法國數學類科普書、大學數學參考及教材類圖書暢銷書目,在機器學習、人工智慧、邏輯學和哲學等眾多領域中,探索貝葉斯定理蘊藏的智慧與哲理。
貝葉斯定理一旦與演算法相結合,就不再是一套枯燥的數學理論或認識論,而變成了應用廣泛的知識寶庫,催生了眾多現代數學定理,以及令人稱道的實踐成果。
03
《趣學貝葉斯統計:橡皮鴨、樂高和星球大戰中的統計學》
作者:[美] 威爾·庫爾特(Will Kurt)
譯者:王凌雲
本書用十餘個趣味十足、腦洞大開的例子,將貝葉斯統計的原理和用途娓娓道來。你將從直覺出發,自然而然地習得數學思維。讀完本書,你會發現自己開始從機率角度思考每一個問題,並能坦然面對不確定性,做出更好的決策。
04
《普林斯頓機率論讀本》
作者:[美] 史蒂文·J. 米勒(Steven J. Miller)
譯者:李馨
普林斯頓讀本三劍客之機率論,機率論教材,敘述深入淺出,提供課程影片和講義,機率論學習圖書。
對於學生來說,學習機率論及其眾多應用、技術和方法似乎非常費力且令人生畏,而這正是本書的用武之地。這本通俗易懂的學習指南旨在用作機率論的獨立教材或相關課程的補充材料,可幫助學生輕鬆地學習機率論知識並取得良好效果。
本書基於史蒂文·J. 米勒在布朗大學、曼荷蓮學院和威廉姆斯學院教授的課程而作。米勒透過先修課程材料、各種難度的問題及證明對機率論這一數學領域進行了詳細介紹。探索每個主題時,米勒首先引導學生運用直覺,然後才深入技術細節。本書涵蓋的主題很廣,並且對材料加以重複以強化知識。讀完本書,學生不僅能掌握機率論,還能為將來學習其他課程打下基礎。