當前位置: 華文世界 > 科學

貝葉斯定理:10個讓你更厲害的觀念

2024-02-03科學

真正的高手,都是貝葉斯主義者。

貝葉斯定理,這個看似簡單的公式,有著各種奇妙的運用,不僅好玩兒,還深深影響了我們決策的品質,甚至改變我們的命運。

從人生選擇,到創業邏輯,再到人工智慧,貝葉斯定律可能是對世界影響最大的公式之一。

你並不需要太多準備知識,就能完成絕大多數貝葉斯定理的計算。

除此之外,這個神奇的定理還給我們帶來如下十個觀念,徹底改變了我們看世界的方式。

1. 信念的種子:基礎比率的力量

從一個主觀的先驗機率開始,貝葉斯定理教會我們如何在不確定性中找到希望的起點。

2. 粗略也是一種智慧:行動在不完美中也能美好

貝葉斯分析告訴我們,即使在資訊不完全或模糊的情況下,也能做出有力的決策。

3. 流動的信念:持續更新的藝術

貝葉斯思維強調信念不是靜態的,而是一個隨時間和數據不斷更新和適應的動態過程。

4. 簡約與全面:奧卡姆剃刀與多維證偽

貝葉斯分析教我們如何在復雜性和簡單性之間找到平衡,同時從多個角度審視問題。

5. 因果的新語言:機率作為解釋工具

透過貝葉斯分析,我們可以用機率作為一種新的工具來理解和解釋因果關系。

6. 知識的三重旋律:經驗、探索和更新

貝葉斯思維強調知識是基於經驗、透過試探獲得,並隨著新資訊而不斷更新的。

7. 智慧的前進演化:不斷逼近真相

貝葉斯方法教會我們如何透過不斷的自我修正和更新,逐漸接近真相或最優解。

8. 聯結的力量:貝葉斯網路與分布式思維

類似於我們大腦的原理,貝葉斯網路展示了如何透過聯結和分布式思維來解決復雜問題。

9. 你的連線定義了你:聯結的權重

在貝葉斯世界中,不僅你和誰連線重要,而且連線的「權重」或品質同樣重要。

10. 模型的雙面性:在相信與懷疑之間尋找平衡

一個貝葉斯主高手,能夠在相信中懷疑,在懷疑中相信,並在一個充滿不確定性的世界裏,持續前行,

一道好玩兒的題目

據說是海外某量化巨頭的一道面試題:

你有2個預測器,每個預測器在晚上會顯示「漲」或者「跌」,來預測明天股市是漲還是跌。

根據歷史統計,每個預測器預測的準確率都是0.7,並且預測器之間的預測結果是獨立的。

今天晚上,2個預測器,都顯示「漲」。

請問:明天股市漲的機率是多少?

第一眼看上去似乎簡單,難道不是【1-(1-0.7)的2次方】?

貝葉斯的直覺立即糾正了我。0.7是預測的準確率,而不是上漲的機率。

如果上漲的機率是x,那麽預測器A預測上漲的機率是【0.7x+0.3(1-x)】。

正確的計算應該是什麽呢?

我的手工解答

推理如下。

兩個預測器其實是兩次獨立的資訊更新,我們要根據這兩次更新的資訊來推測「後驗機率」。

題目中是缺先驗機率的,所以我們可以毛估估一下,例如估計上漲的機率在40%-60%之間。

為了簡便計算,我們假設上漲或下跌的先驗機率都是50%。

第1步

第一個預測器的預測上漲,其準確率是0.7,於是:

預測上漲並且實際也上漲的機率是0.5x0.7。此謂擊中率;

預測上漲而實際是下跌的機率是0.5x(1-0.7),此謂誤報率;

那麽我們要的結果就是【擊中率/(擊中率+誤報率)】

所以,可以計算可能上漲的機率(基於該更新資訊的後驗機率)是(0.5x0.7)/【0.5x0.7+0.5x(1-0.7)】

得到的後驗機率是70%。

第2步

現在,上面得到的後驗機率70%,變成了本次貝葉斯更新的先驗機率。

第二個預測器的預測上漲,其準確率是0.7,於是:

預測上漲並且實際也上漲的機率是0.7x0.7;

預測上漲而實際上下跌的機率是(1-0.7)x(1-0.7);

所以,可以計算可能上漲的機率(基於該更新資訊的後驗機率)是(0.7x0.7)/【0.7x0.7+(1-0.7)x(1-0.7)】

得到的後驗機率是84.48%。

按照公式計算

如上,是我用零公式法計算了一遍。‍‍‍‍‍‍‍‍‍

我從小懶得記公式,有同學還記得我中學考試時現推公式答對最難的物理題並且得零分。

但公式依然很重要,否則就無法大規模重復。

再有,如果你真正理解了某個公式,你根本用不著記。

我們試著用公式再計算一遍。

首先,我們可以用條件機率來解決這個問題。

記事件A為股市明天漲,事件B為預測器1預測漲,事件C為預測器2預測漲。

已知:

P(B|A) = P(C|A) = 0.7 (也就是當股市真的漲時,預測器預測漲的機率是0.7);

P(B|¬A) = P(C|¬A) = 0.3 (也就是當股市不漲時,預測器預測漲的機率是0.3)。

我們要找的是P(A|B∩C),也就是在兩個預測器都預測漲的情況下,股市真的漲的機率。

所以,當兩個預測器都預測明天股市會漲時,真正漲的機率是約0.845或84.5%。

坑爹的基礎比率

極少有人會在生活中用貝葉斯定理來計算,但我們經常被其戲弄。

下面這道題目,可能是最著名的貝葉斯腦筋急轉彎了:

一輛出租車在夜晚肇事後逃逸,而這座城市有紅色和藍色兩種出租車,該城市紅色出租車占85%。現在有以下資訊:

一位目擊證人辨認出出租車是藍色的,當晚警察在案發地對證人的證詞進行了測試,得出結論:目擊者在當時情況下能夠辨認出出租車顏色的機率是80%,錯誤的機率是20%。

那麽,各位讀者覺得肇事的出租車是藍色而不是紅色的機率是多少呢?

我最早在一次旅途中看到這道題的。那是一次集體旅行,特別適合在大巴上看書。

可以說,這道題將我帶到了一個新世界。

丹尼爾·卡尼曼教授的研究顯示,大部份人給出的答案是80%,但正確的答案是41%。

如上圖,大多數人忽視了「該城市紅色出租車占85%」這個基礎比率(基礎機率或先驗機率在這裏是一樣的)。

可能性一(誤報率): 紅色車被誤認為是藍色車的機率是20%,但是紅色車的基礎比率是85%;

可能性二(命中率): 藍色車被確認為藍色車的機率是80%,但是藍色車的基礎機率是15%。

所以,可能性一大於可能性二。

確切說,我們的大腦不擅長這種拐了一道彎兒的數位遊戲。

基礎比率往往受到大家的輕視:當人們手頭有與該事件相關的具體資訊時,很多時候甚至會完全忽視這一比率。

【理性】一書中,舉了一個更生動的例子:

潘妮洛普是個大學生,朋友認為她冷漠且敏感。她在歐洲旅行過,能說流利的法語和義大利語。

雖然職業規劃尚不明朗,但她是一位技藝精湛的書法家,還曾寫過一首十四行詩送給男朋友作為生日禮物。

請問:你認為潘妮洛普的專業是什麽,心理學還是藝術史?

大多數人的第一反應是:當然是藝術史了!

但事實上,13%的大學生主修心理學(不知道是哪裏的數據),只有0.08%的學生主修藝術史,幾乎是163:1。

所以,潘妮洛普更可能是學心理學。

然而, 我們先入為主的「刻板印象」,讓自己忽視了基礎比率的存在。

人們總是追求新奇,追求大招,追求與眾不同,然而很不幸,絕大多數人都只是普通人而已。

但這並不是什麽壞事,普通人是被基礎比率(基礎機率)所庇護的。

想想看,在這個看似很糟糕但依然跌跌撞撞執行的世界裏,只要我們遵循基本的常識,本分地活著,一般都還不賴。

問題往往出在我們不願意平常地活著。

這就是為什麽「常識」往往很不常見。‍‍

醫學界有句格言:「 當你聽到馬蹄聲時,想想馬,而不是斑馬。

例如,馬斯克曾經說過,特斯拉就是要做最好的車。而不是別的什麽花裏胡哨的概念。

這個是某種意義上的第一性原理。

所以,相信陰謀論,相信神醫,到處找成功學的偏方,一心憋大招,都是智慧不足的特征。

世界的「比率」

卡尼曼的研究裏,大量涉及「比例」。

的確,人是一種比例動物,我們對於外部世界的感知,往往是基於比較和變化。

例如,一個人對薪水的滿意度,往往不是來自絕對數值,而是來自與同事或同行的對比。

又例如,我們身體感覺的往往是溫度變化,而非溫度本身。

再復雜一點兒,來看看1964年奧斯本提出的「隨機漫步理論」:

他認為股票價格的變化類似於化學中的分子「布朗運動」(懸浮在液體或瓦斯中的微粒所做的永不休止的、無秩序的運動),具有「隨機漫步」的特點,也就是說,它變動的路徑是不可預期的。

這裏特別要強調的一點是: 隨機漫步的不是股價,而是股價的變化

讓我們說說比率吧。

【數學的雨傘下】講了個有趣的故事:

作者和朋友玩兒競猜遊戲,問題是地球和月球之間有多遠。

作者這組猜是80萬千米。另一組猜10千米。

後者的答案顯然不靠譜,珠峰就有近9千米,這還不一下子就蹦上月球了?

然而,結果卻是,這個荒唐的答案更接近正確答案。

如上圖:

1、月球和地球之間的距離實際上是384000千米;

2、作者的答案和正確答案差了416000千米;

3、「荒唐組」的答案則只差了383990千米。

所以,看起來更聰明的人反而錯得更多!

問題出在哪裏?

顯然,我們應該計算的是比率,而非加減。

所以,按照比率,用除法計算:

1、作者組的答案比正確答案大了1.08倍(800000/38400);

2、荒唐組的答案只有正確答案的1/38400。

從這個角度來看,作者組遙遙領先。

而且,這個基於比率的結果,更加符合我們對該問題的本能感知。

再說回貝葉斯定理,為什麽即使聰明人也容易被繞暈呢?

從上面出租車的例子可以發現:

一、在除法計算中,分子分母顛來倒去,容易把人繞暈;

二、具體計算過程中,先除法,再加法,又除法,也容易暈。

說起來,我們還真是像小孩一樣,看電影只會問:那人是好人還是壞人?

即使再前進演化一點兒,有些聰明人跳出了非黑即白的二元對立思維,知道用機率來描述灰度,也會在多個機率混雜在一起時犯糊塗。

該話題還可以延伸至「 大事不糊塗是追求數量級的正確 」的有趣主題上。

再回到貝葉斯定理。

用證據更新觀念的機率

太多對貝葉斯的討論,停留在「因漠視基礎比率而導致戲劇性後果」這一方面。

而貝葉斯的魔法,更多的來自其「更新」。

平克寫道: 貝葉斯定理,是控制證據強度的機率法則,告訴我們當知曉了一個新的事實或觀察到新的證據時,該如何修改機率(改變我們的想法)。

貝葉斯定理看起來很簡單,從頭推導也不難:

下圖是對公式的直觀描述:

簡而言之,就是先有一個「先驗機率」,然後根據新的證據更新,得到一個後驗機率。

平克用文字描述了貝葉斯定理:

我們在檢視「證據」後對「假設」的相信程度,等於我們事先對「假設」的相信程度,乘以「假設」為「真」條件下「證據」出現的可能性,再根據「證據」的普遍程度做出適當調整。

對於貝葉斯更新,更好的數據和資訊帶來更好的解決方案。

什麽是更好的資訊?包括且不限於:更多的數據,更靠譜的資訊源,更多的角度。

有時候,快速的、有洞見的小數據,可能更有價值。

貝葉斯更新特別像是一個證偽的過程,所以,更多的不同角度,就像切割鉆石的雷射。

經得起不同角度的奧卡姆剃刀切割的觀念,其接近真相的機率更高。

厲害的原理

貝葉斯定理為什麽厲害?‍‍‍

貝葉斯定理與人類大腦的推理過程非常相似,所以被稱為 接近人類感覺的統計學

在最開始的計算中,我們並沒有股市漲跌的先驗機率,所以憑主觀給出了一個50%的「臨時機率」。

這是一種了不起的毛估估的思路。

靜態角度看,有費米估算的妙趣;

動態角度看,則有在前進演化中不斷逼近真相的智慧。

所以,【科學世界】雜誌說,貝葉斯統計有一個「不充分推理原則」:

若沒有其他可作為依據的數據,可以把主觀預測當作數據使用。

然後,再根據新的資訊,不斷更新機率,結果就會越來越準確。

本文開始的例子裏,兩個預測器的準確率都只有70%,但是疊加在一起使用(前提是二者是獨立的,現實中很難做到),卻可以將預測準確率大幅提升。

所以,貝葉斯定理有一種可以不斷重復的杠桿效應。

舉例說,要用貝葉斯定理來辨識垃圾信件。

根據貝葉斯定理如下:

假設x是垃圾信件,y是信件裏有「免費」的字眼。計算如下:

可以想象,假如我們繼續增加用於證明是垃圾信件的字眼,會產生疊加效應,大幅提升辨識出垃圾信件的準確率。

(上面案例來自【科學世界】雜誌。)

貝葉斯的杠桿

讓我們透過一個更加直觀生動的例子,來感受一下貝葉斯定理的杠桿:

有兩個裝滿大量卡片的盒子,其中一個70%是紅色,30%是藍色;另一個30%是紅色,70%是藍色。

現在隨機選擇了一個盒子並取出了12張卡片,其中有8張是紅色,4張是藍色。

那麽,請問這些卡片取自第一個盒子的機率是多少?

計算之前,我們根據自己的直覺,隨意蒙一下,大概是70%或80%?不妨寫下來。

透過貝葉斯計算如下:

透過計算,結果是多少呢?

答案是高達97%。

這個數位比大多數人的估算要高。

畢竟12張卡片裏,還有4張是藍色,來自盒子1的機率為什麽高達97%?‍‍‍

這是因為,至少在某些情境下,連續的證據,能夠讓貝葉斯定理產生某種類似於杠桿原理的逼近速度。

這道題也示範了貝葉斯定理如果根據「果」,來倒推「因」。

我們不斷從某個未知的盒子裏隨機抽出牌,看見「果」。

然後倒推這些牌來自那個盒子,這是「因」。

並且,這些因果並非是傳統意義上那種邏輯推理式的,也就是被休謨懷疑的那種脆弱的因果。

貝葉斯定理所描述的因果,是基於主觀機率的,並不斷在新的證據下更新的信念。‍‍‍‍‍‍

在貝葉斯因子的催化下,我們可以在不確定的世界裏,借助有限的資訊,持續叠代。

有趣的是,這種看似含混的因果,反而比那些貌似邏輯分明、信誓旦旦的因果更有生命力,更有適應力。‍‍‍

貝葉斯更新(案例1)

再說貝葉斯的「更新」。

1968年6月,天蠍號核潛艇在大西洋亞速海海域失蹤了,潛艇上的99名海軍官兵全部杳無音信。

看起來是不是像大海撈針?

就搜尋的難度而言,的確如此。

海軍請來科學家克雷文組織搜尋。

首先, 克雷文列出一系列能夠解釋天蠍號事故的場景。

接著, 他組建了一個囊括各方面專家的團隊,讓每個成員提供自己對每個可能場景的 發生概 率的猜測。

再而 ,將各位專家的意見綜合到一起,得到了一張20英裡海域的機率圖。整個海域被劃分成了很多個小格子。

每個小格子有兩個機率值p和q,p是潛艇躺在這個格子裏的機率,q是如果潛艇在這個格子裏,它被搜尋到的機率。

每次尋找時,先挑選整個區域內潛艇存在機率值最高的一個格子進行搜尋。

如果一個格子被搜尋後,沒有發現潛艇的蹤跡,那麽按照貝葉斯公式,這個格子潛艇存在的機率就會降低:

如果沒有發現,機率分布圖則會被「洗牌」一次,搜尋船只就會駛向新的「最可疑格子」進行搜尋,這樣一直下去,直到找到天蠍號為止。

克雷文采用的正是貝葉斯法,能夠利用有限的資訊進行預測,並且根據搜尋「連續更新」。

(以上案例來自網路。)

也就是說,每一次「沒搜到」的遺憾都不會被浪費,也不是簡單被標註為「不在這裏」,而是用於更新調整整體的估算機率。

貝葉斯更新(案例2)

2009年5月31日晚10點,法航447不幸墜毀,搜救人員動用當時最新技術,找了一周後,僅發現少量殘骸碎片和29具遇難者遺體。

隨後兩年的艱苦搜尋,更是一無所獲。

這時,貝葉斯主義者登場了,他們的方法是:

  • 為飛機失事建立一個數學模型;
  • 整合評估各種導致失事的原因的機率;
  • 根據更新資訊,改進模型。
  • 如上,也是一張「格子」圖。

    救援隊根據上述機率分布圖,先從機率最大的區域搜尋,如果沒有發現,就在過往數據基礎之上更新機率分布,繼續搜尋最大機率區域。

    其中,貝葉斯更新的過程,簡單示範如下:

    (本圖來自【科學世界】雜誌)

    上面的數位如何得到的呢?

    我試著不用貝葉斯公式,用直觀的方式來計算:

    在B區域的「初始信念」是50%,搜尋之後不在B區域,但是找不到的可能性是:

    1、的確不在B區域;

    2、在B區域但是被漏掉了。

    我們假設漏掉的機率是25%(這也是一個信念),於是分析如下:

    這裏有趣的地方是,對於一個貝葉斯主義者,不僅是「我相信,但我也懷疑我的相信」,甚至於,連我對自己的懷疑也是懷疑的。

    假如你知道自己愚蠢,並且能夠定義出愚蠢的邊界,例如這裏「找漏了」的機率之25%,那麽該愚蠢就會成為智慧的一部份。

    繼續上面的不用公式的計算,搜尋了B區域,由此更新的資訊是:

  • 的確不在B區域的機率是37.5%
  • 還是在B區域但是被漏掉的機率是12.5%。
  • 那麽,不在B區域的37.5%可能性,就要在ABCD四個區域重新分配,如下圖:

    重新分配的基數是(30%+12.5%+5%+15%),以A區域為例,其因為重新分配那37.5%而增加的機率是:

    30%➗(30%+12.5%+5%+15%)✖️37.5% = 0.18

    於是,更新後A區域的機率是(0.3+0.18=0.48),整體更新後如下圖:

    這時,A區域的「信念」數值上升為48%,接下來,搜救人員繼續搜尋A區域。

    我們可以想象,假如某個區域的初始信念比較高,並且遺漏機率也比較高的話,即使搜尋了該區域而不得,有可能該區域更新後的信念仍然是最高的,所以按照遊戲規則仍然是最高的。

    歷史上的搜救案例裏,的確出現過類似的狀況,人們根據更新後的數據,重復去搜尋此前找過但沒找到目標的區域,結果最後找到了。

    貝葉斯主義者,將機率理解為對某件事情的信念。

    他們承認自己的「信念」是灰度的,而非絕對的判斷。

    他們會根據觀察到的資訊更新自己的信念:

  • 「初始信念」是先驗機率,更新後的信念是後驗機率。
  • 在新一輪的觀察中,後驗機率又變成初始機率。
  • 我在【人生演算法】裏的認知飛輪,亞馬遜的Day 1,微軟的重新整理,投資人的打無記憶的球,都是類似邏輯。

    貝葉斯推斷保留不確定性,每一輪的估算也許是模糊的,然而公式在模糊和犯錯的情況下,依然可以發揮作用。

    並且,貝葉斯演算法具有連續性,可以程式化,以有限的資訊,透過某種杠桿效應,快速逼近真相。

    當我們添加更多的證據,初始的信念會不斷地被「洗刷」。

    有人把天蠍號潛艇案例視為「群體智慧」,也有人將其視為「試錯法」,其實並不精確。

    貝葉斯法,每一次都能利用新資訊(哪怕是失敗的資訊),對原有信念進行更新。

    這就是杠桿作用。

    更重要的是,這一過程可以不斷迴圈,連續作用,從而產生了指數效應。

    所以,貝葉斯思維的杠桿,是一種關於「可能性」的杠桿。

    樸素貝葉斯

    貝葉斯定理厲害,還因為演算法與AI。

    再看一道題:

    如上圖。我們測試了1000個水果的數據,包括如下三種特征:形狀、味道、顏色,這些水果有三種:蘋果、香蕉、或梨子。

    請問:如果某水果的特征是「長、甜、黃」,請問該水果是哪一種?

    簡單分析如下。

    從數據中,我們知道:

    1、這些水果中,50%是香蕉,30%是蘋果,20%是梨子。也就是說,P(香蕉) = 0.5,P(蘋果) = 0.3,P(梨子) = 0.2。

    2、500個香蕉中,400個(80%)是長的,350個(70%)是甜的,450個(90%)是黃的。也就是說,P(長|香蕉) = 0.8,P(甜|香蕉) = 0.7,P(黃|香蕉) = 0.9。

    以此類推,我們可以分別計算出別的條件機率。

    接下來,要計算的是,在「長、甜、黃」這一特征資訊的「更新」之下,某水果是蘋果、香蕉、或梨子的機率。

    以計算香蕉為例,「長、甜、黃」的條件下是香蕉的機率是:‍‍‍

    P(香蕉|長甜黃) = P(長甜黃|香蕉) P(香蕉)/ P(長甜黃)

    其中,是香蕉的條件下,符合「長、甜、黃」的機率是:

    P(長甜黃|香蕉) = P(長|香蕉) * P(甜|香蕉) * P(黃|香蕉) = 0.8*0.7*0.9 = 0.504。

    再以同樣方式,分別計算P(長甜黃|蘋果) ,P(長甜黃|梨子) 。接下來:

    P(長甜黃) = P(長甜黃|香蕉) P(香蕉) + P(長甜黃|蘋果) P(蘋果) + P(長甜黃|梨子) P(梨子)

    於是,我們可以計算出來:P(香蕉|長甜黃) = 93%

    上面的計算從數學的角度看非常簡單,從人類理解外部世界的常識來看也無非如此,但繞在一起卻很容易讓人犯暈。

    一個直觀的描述來自 3Blue1Brown的講解,如下圖:

    1、假設我們有兩種水果,如上圖左側,分別是香蕉和蘋果。

    2、上圖中間,則是香蕉和蘋果分別符合「長、甜、黃」這一特征的機率。‍‍‍‍

    3、上圖右側,則是計算符合「長、甜、黃」這一特征的水果是香蕉的機率。‍‍

    呃,很直觀吧。

    從上圖中,我們再次感受到,貝葉斯定理是一種關於比例的表述。

    如果我們用一種視覺化的方式來建模,就不會那麽容易因為分子和分母的變換而被繞暈。

    這是一個樸素貝葉斯計算。

    樸素貝葉斯假設了樣本的每個特征之間是互相獨立、互不影響的。

    例如在上面的題目裏,認為「長、甜、黃」這些特征都獨立地貢獻了這個水果是一個香蕉的機率。

    然後,透過套用貝葉斯法則來「合並證據」。

    這種假設關系太過於理想,所以這也是樸素貝葉斯的」Naive」之處。

    【人工智慧:現代方法】寫道:

    樸素貝葉斯模型有時被稱為貝葉斯分類器(Bayesian classifier),這種有點粗心的用法已經促使真正的貝葉斯學派稱其為傻瓜貝葉斯(idiot Bayes)模型。

    在實踐中,樸素貝葉斯系統通常表現得很好,即使條件獨立性假設並不是嚴格成立的。

    該書提及: 即使是看似復雜的問題,也可以用機率論精確地表述出來,並用簡單的演算法求解。

    很多時候,尤其是在一個不可避免的不確定世界裏,機率比邏輯做得更好。

    經驗主義

    根據特征辨識水果的例子,讓人想起了洛克。

    洛克認為人心中沒有天賦觀念,「人心就如一塊白板」(Tabula Rasa),一切知識和觀念都起源於經驗。

    「人們能夠經驗外界事物,並對所觀察的事物加以反省,我們便得到知識。」

    例如,我們對香蕉的認知,來自我們的經驗,如下圖:

    洛克認為觀念是思維的物件,感覺和反省是觀念的兩大來源,合稱為經驗。

    感覺(sensation) :物刺激感官,感官被動地產生觀念。例如:黃、白、熱、冷、軟、硬、苦、甜,以及一切所謂可感物。
    反省(reflection): 我們的心靈主動地反省自身內部的心理活動。例如:知覺、思想、懷疑、信仰、推論、認識、意欲,以及人心的一切作用。

    洛克還提出了「第一性質與第二形式」和「簡單觀念與復雜觀念」等理論,例如:

    我們唯一能感知的是簡單觀念,而我們自己從許多簡單觀念中能夠形成一個復雜觀念。

    就像人類,或者人工智慧,在資訊不充分的環境裏,根據「長、甜、黃」等簡單觀念所提供的證據,合並在一起,推測出一個相對復雜的觀念。

    洛克和別的一些哲學家天才般的朦朧奇思妙想,為後來的貝葉斯主義者和人工智慧都埋下了火種。

    隨後的故事非常有趣:

    經驗主義者洛克影響了懷疑主義者休謨;

    而牧師貝葉斯則試圖反對那些對上帝不敬的家夥,結果提出了貝葉斯定理,為經驗主義和懷疑主義獻上了一大神器;

    從此,人類可以在經驗和懷疑的迷霧中,以貝葉斯定理為拐杖前行。

    如今,經驗主義已經超越了哲學家的杠精式的討論。

    在科學領域,經驗主義強調證據,尤其是在實驗中發現的證據。

    「所有假設和理論都必須根據對自然世界的觀察進行檢驗,而不是僅僅依賴於先驗推理、直覺或啟示,這是科學方法的基本組成部份。」

    在本文的語境裏,我偏向於自然科學學者經常使用的經驗主義:

    1、知識是基於經驗的;

    2、知識是試探性(tentative)的和機率性的,會不斷被修正和證偽」;

    3、以經驗(或觀察)為依據的研究,包括實驗和經過驗證的測量工具,指導科學方法。

    貝葉斯定理整合了「過去經驗」、「新的證據」和修正後的判斷」,提供了一種將新觀察到的證據和已有的經驗結合起來進行統計推斷的客觀方法。

    經驗主義 VS 理性主義

    ChatGPT的勝利,讓很多人感慨,經驗主義再次將理性主義甩到了後面。

    這裏的理性主義,是一個相對狹義的概念。

    在人工智慧的範疇裏,經驗主義和理性主義研究範式交替出現,二者對比如下:

    來自【從ChatGPT看「自然語言處理之經驗主義與理性主義」】

    理性主義的領軍人物喬姆斯基應依然在世,今年(2023年)近九十五歲。

    他在【紐約時報】上撰文【 ChatGPT的虛假承諾】,用了一個例句:John is too stubborn to talk to。

    喬姆斯基認為機器會把這個句子理解為:John太固執不願意和人談話;

    而不會正確地理解其本意:John不可理喻。

    然而,當人們將問題拋給ChatGPT,發現ChatGPT能夠準確地知道這個句子的深層含義。‍‍‍‍‍

    克拉克定律再次顯靈:

    如果一個年高德劭的傑出科學家說,某件事情是可能的,那他幾乎就是正確的;但如果他說,某件事情是不可能的,那他很可能是錯誤的。

    史丹佛大學的計算語言學家凱瑞斯·曼寧說:

    「看到一位年輕時深刻的創新者,現在卻保守地阻礙激動人心的新方法,真是令人悲傷。」

    但是,在我看來,這位年近百歲的鬥士在科學上最後的固執,可能是他可以作出貢獻的最好形式。畢竟ChatGPT已經足夠熱了,不需要一個附庸的老家夥。‍‍

    在電影【模仿遊戲】裏,圖靈炒掉了語言學家;‍‍

    費曼總是在嘲笑哲學家;‍‍‍‍‍‍‍

    塔勒布也調侃說「我們從來不認為鳥類學會飛行得歸功於鳥類學家的成果」。

    但是有研究人員認為自然語言處理的發展需要理性主義與經驗主義共同推進,尤其需要語言學理論、語言學知識支撐。

    理由是:語言學家研究語言現象,就像物理學家研究物理現象,正如工程師需要物理洞見,自然語言處理研究人員的任務就是研究如何使用語言學洞見。

    如上討論有含混之地,我分別從兩頭替雙方辯護一下,例如:

    1、塔勒布嘲諷鳥類學家不能教會鳥學會飛行,但是物理學家可以教會飛機飛行;

    2、語言學之於自然語言處理,到底是鳥類學家,還是物理學家呢?

    不管怎樣,一種穩妥的方法是,綜合邏輯和機率,正如貝葉斯定理所表現出來的包容性。

    貝葉斯定理最根本的結論之一就是:

    新證據不能直接憑空的決定你的看法,而是應該更新你的先驗看法(之前的經驗)。

    我贊成平克在【理性】一書中對「理性」概念的拓展:

    理性不是說知道事實,而是認識到哪些因素是有關的。

    證據疊加

    【終極演算法】提及了一個難題:

    假設你在讀【紐約時報】,講的是外星人已經登陸地球。

    這一天不是4月1日,可能這是一個玩笑?

    但是現在你在【華爾街日報】【今日美國】【華盛頓郵報】看到一樣的標題。

    你開始感到慌張。但是,如果你檢視細節,會發現這四家報社都從美聯社那裏得到這個新聞標題,你又返回去懷疑這是一個玩笑,而這次開玩笑的是一位美聯社的記者。

    規則系統無法解決這個問題,樸素貝葉斯法也一樣。

    這個問題,涉及到證據的不獨立性和資訊的重復計算。

    在貝葉斯推理和樸素貝葉斯分類器中,這是一個常見的問題,通常稱為「 證據疊加 」。

    在本文以上的諸多計算中,我們總是在強調證據的獨立性。

    在本節案例裏,如果所有的資訊都來自同一個源(在這裏是美聯社),那麽即使多個報紙都報導了這個事件,這些證據也不應該被視為獨立證據。

    在思考這類上讓人疑惑的難題時,我們應該學會提問:

    還有哪些可能的潛在變量?

    我試著讓ChatGPT來描述一下:

    如上圖:

    1、從節點1到節點2的箭頭表示外星人降臨(或沒有)會影響美聯社是否報道;

    2、從節點2到其他各節點的箭頭表示美聯社的報道(或沒有報道)會影響其他報紙是否報道這個事件。

    我們可以得知,如果所有的資訊源都來自美聯社報道,那麽不管在節點2之下延伸出多少子節點,也不能作為更多證據來放大外星人降臨的可能性。

    貝葉斯定理很強大,但前提是模型必須正確地捕捉到關鍵變量之間的關系。

    如果模型過於簡單或者沒有考慮到這些依賴性,就可能出現問題。

    上面那張簡陋的圖,就是一個貝葉斯網路。

    貝葉斯網路(之一)

    假設你是一位偵探,收到一個神秘的任務:找出鄰居家草地為什麽會濕潤。經過一番調查,你發現只有兩個可能的「嫌疑人」:

    1、下雨(R):也就是說,是不是老天爺在搞鬼?

    2、噴水裝置開啟(S):或者是不是家裏的自動噴水裝置搞的鬼?

    在這個情境中,有三個隨機變量:

    1、R(下雨):是否下雨

    2、S(噴水):噴水裝置是否開啟

    3、W(濕潤):草地是否濕潤

    這三個隨機變量的關系可以用一個有向無環圖來表示如下:

    在這個網路中,節點R和節點S是因節點,而節點W是被影響節點。

    貝葉斯網路是一種用於表示變量之間條件依賴關系的機率圖模型。它透過有向無環圖來表示這些關系。

    在上圖中,節點代表隨機變量(它們可以是可觀察到的量、未知參數或假設等),而有向邊則表示一個變量可能如何影響另一個變量。

    20世紀70年代末,人工智慧領域針對如何處理不確定性因素展開了激烈討論,各種主張層出不窮。

    在1982年,「貝葉斯網路」之父朱迪亞·珀爾提出了一個表面上平淡無奇但實際上非常激進的建議:

    將機率視作常識的「守護者」,聚焦於修復其在計算方面的缺陷,而不是從頭開始創造一個新的不確定性理論。

    更具體地說,我們不能再像以前那樣用一張巨大的表格來表示機率,而是要用一個松散耦合的變量網路來表示機率。

    貝葉斯網路有如下特點:

    1、條件依賴性:貝葉斯網路透過圖的形式表達了條件依賴關系。如果一個箭頭從A指向B,那麽B在一定程度上取決於A。

    2、機率性:每一個節點都有一個條件機率表,用於描述給定其父節點狀態下該節點狀態的機率。

    3、推理與學習:給定一部份節點(觀測數據),你可以使用貝葉斯推斷來估算其他未觀測節點(隱藏變量)的機率分布。

    貝葉斯網路的強大之處在於,即使在復雜和不確定的情況下,它也能提供一種邏輯嚴謹的方式來推斷未知變量的機率分布。

    貝葉斯網路(之二)

    再來一題。

    你可能也經歷過在機場等行李的煎熬。假設如下狀況:

    1、行李丟掉(沒上飛機)的機率是50%;

    2、行李的等候時間為10分鐘(並且是均勻的);

    請問,等了5分鐘之後,還沒看到行李,那麽你的行李沒被弄丟的機率是多大?

    方法一:不靠譜的直覺

    首先,用直覺快速解答一下:

    假設行李沒掉,機率是50%,目前還有5分鐘,也就是還有50%機會等到行李,那麽是不是應該是(50%✖️50%=25%)呢?

    然而,這個解答是錯的。

    方法二:貝葉斯定理

    我們可以按照以下方式使用貝葉斯定理來計算這個問題。

    首先,我們定義以下幾個事件:

    正確答案是:1/3。

    上面兩個計算中,第一個直覺上的錯誤非常有趣。‍‍

    沒錯,假如用平行宇宙的思考方式,很容易想到25%的可能性。‍‍

    但是,機率所描述的未知,在經歷了5分鐘的等待之後,基數已經變成(25%+50%)了,所以計算結果應該是【25%➗(25%+50%)】。‍

    為什麽在經歷了5分鐘之後,在行李沒丟的那一半平行宇宙被壓縮到了25%,而行李丟了的那一半平行宇宙還是按照50%來作為基數呢?‍‍‍‍‍‍‍‍‍‍‍‍‍‍

    這是無聊但好玩兒的思考,你不妨在大腦裏模擬一下。

    不過,這一節的重點是貝葉斯網路。‍‍‍‍‍‍‍

    在【為什麽】一書裏,朱迪亞·珀爾用上面這個例子,來講解他的理論。

    為了讓人們更加直觀地理解,他首先繪制了一個因果圖:

    為了將因果圖轉化為貝葉斯網路,我們必須指定條件機率表,下圖是為解決「行李箱在傳送帶上」的機率這一問題建立的條件機率表:

    借助於這個例子,朱迪亞·珀爾強調:

    即使上面這個例子只是一個有3個節點的小型網路,它仍然包含2×11=22個父狀態,且其中的每一個都為子狀態的機率做出了貢獻;

    如果一個節點有10個父節點,且每個父節點都有2個狀態,則條件機率表將超過1000行;

    如果10個父節點中的每一個都有10個狀態,那麽這張表將有100億行!

    【為什麽】一書寫道:

    「為此,人們通常會對網路中的連線進行篩選,只保留那些最重要的連線,讓網路保持一個相對「稀疏」的狀態。

    在貝葉斯網路的發展過程中,其中一項技術成果就是開發出了一種方法讓我們可以利用網路結構的稀疏性實作合理的計算時間。」

    貝葉斯網路(之三)

    能看到一個理論的創造者介紹自己的靈感從何而來,是一件令人愉悅的事情。

    朱迪亞·珀爾說自己的靈感來自大衛·魯梅哈特的一篇文章。

    「大衛·魯梅哈特是一位認知科學家,也是神經網路的先驅。他在1976年發表的關於兒童閱讀的一篇文章中明確指出,閱讀是一個復雜的過程,其涉及許多不同層次的神經元同時發揮作用。」

    他介紹了一個層次化的框架,透過這個框架,不同層次的神經元負責解決不同級別的問題,然後將資訊向上傳遞。

    讓我們以閱讀為例:

    1、字母層面: 辨識個體特征,如線條和曲線,判斷它們可能構成哪個字母;

    2、詞匯層面: 根據辨識的字母和字母組合猜測可能的詞;

    3、句法層面: 根據猜測的詞和語法規則進行進一步的推斷;

    4、語意層面: 考慮上下文資訊,對整個句子或短語進行解釋。

    上圖表明了我們大腦的資訊傳遞網路是如何學會辨識短語「THE CAR」的:

    1、在字母層面上 ,它可能是「FHP」,但在詞匯層面,這個字母串是沒有意義的。

    2、在詞匯層面上 ,這個詞更可能是「FAR」、「CAR」或「FAT」。神經元將這些資訊向上傳遞到句法層面,我們因此判斷出在「THE」之後出現的應該是一個名詞。

    3、最後,這些資訊被傳遞到 語意層面 ,我們進而意識到因為前一句提到了大眾汽車,所以這個短語很可能是「THE CAR」,代指同一輛大眾汽車。

    更關鍵的是,上圖中我們可以發現:

    「所有的神經元都是同時來回傳遞資訊的,自上而下,自下而上,自左向右,自右向左。」

    這意味著, 大腦是一個高度並列的系統,而非過去我們認為的是一個單一的、集中控制的系統。

    朱迪亞·珀爾從魯梅哈特的論文中認識到:

    任何人工智慧都必須建立在模擬我們所知道的人類神經資訊處理過程的基礎上,並且不確定性下的機器推理必須借助類似的資訊傳遞的體系結構來構建。

    然而,難題是:資訊具體指的是什麽呢?

    想了好幾個月,朱迪亞·珀爾終於認識到:

    資訊是一個方向上的條件機率和另一個方向上的似然比。

    更進一步,他將貝葉斯定律和神經網路的推理結合了起來。

    朱迪亞·珀爾認為:

    1、網路應該是分層的,箭頭從更高層級的神經元指向較低層級的神經元,或者從「父節點」指向「子節點」。

    2、每個節點都會向其所有的相鄰節點(包括階層中的上級節點和下級節點)發送資訊,告知當前它對所跟蹤變量的信念度(例如,「我有2/3的把握認為這個字母是R」)。

    3、接收資訊的節點會根據資訊傳遞的方向,以兩種不同的方式處理資訊。

    4、如果資訊是從父節點傳遞到子節點的,則子節點將使用條件機率更新它的信念。

    貝葉斯網路中的每個節點(變量)通常只與其父節點和子節點有直接的依賴關系,這大大減少了需要考慮的變量數量和相應的計算負擔。

    故事的另外一條主線,順著神經網路前行。

    1986年10月,大衛·魯梅爾哈特、傑佛瑞·辛頓和隆納·威廉斯發表了【」Learning representations by back-propagating errors】。

    該論文描述了一種新的學習程式,可用於神經元樣網路單位的反向傳播,其掀起的驚人浪潮,正是當下大熱的深度學習。‍‍‍‍

    必須一提的是,朱迪亞·珀爾試圖將因果引入機率世界。而在神經網路原教旨主義者辛頓看來,許多類似的主張完全是多余的。

    最後

    本文從一道有趣的題目開始。‍

    順著一道題,我又做了了另外幾道題,順便溫習了一些自己從沒主動記過的公式。希望我可能出現的錯誤別太離譜。‍‍‍‍

    很遺憾的是,當我試圖找到一些相關例題時,發現在網路上極其匱乏,例如搜尋「貝葉斯網路」,排在前面的文章不僅重復,還是錯的。‍‍‍‍‍‍‍‍‍

    所以我自娛自樂地將一些典型的貝葉斯定理的案例,都從頭演算了一遍,並試圖從可感知的角度,探尋其神奇力量的「為什麽」。‍‍‍‍‍‍‍‍‍‍‍

    文章太長了,我來不及寫貝魯的Turbo碼,其核心思想也是貝葉斯網路:

    透過兩個不同編碼過程對單一資訊進行編碼,從而提供多個獨立(或近似獨立)的觀察結果。

    這裏的關鍵詞,也是「獨立」。所以,說起一個人的獨立思考,不僅是自己與他人的相對獨立,甚至也包括自己與自己的相對獨立。

    確切說,本文是一場好玩兒的智力遊戲。

    我只想搞懂到底為什麽。要做到這一點,我們需要從數學、哲學、物理、生物學、資訊學的角度去切入問題的本質,而不是簡單地套用公式。

    用自然科學隱喻人生道理,大多數時候都是胡說八道。本文目的亦不在此。

    貝葉斯定理有一種奇怪的樂觀主義精神,教我們在未知中前行。‍‍‍‍

    在生活中,很多時候,那些看上去疑慮重重的人也許有更堅定的信念,而那些信誓旦旦的家夥每每總是見利思遷。

    貝葉斯主義假設「現實」的所有模型、理論和概念都不過是某種信念。

    這並不會令人成為虛無主義者,反而更能夠令我們在相信中懷疑,在懷疑中相信。‍

    「所有的模型都是錯的,有些模型很有用。」

    這個世界很混蛋,但竟然如此剛剛好夠我們生存;

    這個星球很殘忍,卻總能給我們留下一扇門。

    未知令人恐懼。但是,假如希望不是以機率化的方式呈現,又算得上什麽希望呢?

    你看,你我都可以有自己的主觀信念,帶著些許模糊,在這個不確定的世界裏,伴隨著我們不必拋棄的好奇心,如孩子般前行。