當前位置: 華文世界 > 科技

AI揭開真相,他竟然是這麽死的

2024-05-07科技

唯物的中國芯片產業深度觀察

第歐根尼錯了。

柏拉圖沒有死在婚宴上,而是死於臥榻,旁邊一位色雷斯女奴正演奏長笛。即使生命垂危,80歲的柏拉圖也能敏銳地指出演奏者的錯誤。


哲學家的內在世界深不可測,死亡竟然也這麽富於詩意。

公元79年,維蘇威火山爆發,灰燼吞沒義大利龐貝、赫庫藍尼姆和斯塔比亞。1900多年後,上百卷碳化的紙莎草卷軸正逐一經受人工智慧破譯。柏拉圖之死真相是4月30日最新揭開的謎底。

雷射掃描赫庫藍尼姆紙莎草卷軸 /圖源:維蘇威挑戰官網

站在科技的懸崖前,凝視時間深處,「維蘇威挑戰」凝結起電腦科學家、古文字學家、哲學家和投資人的智慧,向世人展示古代世界不為人知的燦爛文化。

人工智慧不是人類生存和職業的威脅,只是解放人類的工具:它所能挖掘的歷史,呈現的不僅僅是人類文明的未來。

紫色

2023年8月下旬,一個普通的星期六晚上,21歲的盧克·法裏托離開了朋友聚會,開車回宿舍。他是內布拉斯加大學林肯分校電腦科學專業的本科生。

上車前,一條訊息從手機上彈了出來,差點讓他摔個大跟頭。半年來,法裏托一直研究用X射線掃描古代紙莎草卷軸,一周超過40個小時。聚會時,他也沒忘了遠端登陸電腦,用人工智慧模型檢測一截新片段。

手機屏上有三個希臘字母——π、ο、ρ。近兩千年來,法裏托是第一個閱讀它們的人。

盧克·法裏托在回家的路上,用手機看到的圖片 /圖源:本人供圖

此刻,他距離「維蘇威挑戰」賽首獎只有一步之遙。首獎規定,以待研究的紙莎草卷軸為藍本,第一個在4平方厘米的區域內找到10個清晰字母的人,贏4萬美元。


改進搜尋模型後,法裏托很快擊中了一個古希臘詞:「πορφύραc」,意思為「紫色」。沒多久,柏林自由大學生物機器人專業研究生優素福·納德,也找到了這個詞。作為第二名,他拿到1萬美元獎金。

盧克·法裏托的獲獎作品截圖 /圖源:維蘇威挑戰官網

古羅馬博物學家老普林尼在【自然史】中介紹,紫色染料只能從貝類中提取。


這個秘密是希臘神話中「泰坦」海克力斯發現的。海邊閑逛時,他的狗咬碎了一枚骨螺,濺出一灘紫色。海克力斯從此身著紫袍,還將此法秘傳給了腓尼基的提洛斯人。靠10000個骨螺才能制出1克的珍貴「泰萊恩紫」染料,腓尼基人建立了龐大的商業帝國。

【馬可福音】提到,耶穌遭羅馬士兵鞭打,被迫身著羅馬皇帝才能穿的紫色長袍。士兵們朝他吐口水,嘲笑他,「向你致意了,猶太王!」然後將他釘在十字架上。

塵封兩千年的古卷軸的篇章,就從一個不可思議的「紫色」開始了。

卷軸

公元79年,維蘇威火山爆發,義大利西南部的小鎮赫庫藍尼姆,很快淹沒在20公尺厚的熱泥之下。和龐貝不同,面向拿坡里灣的赫庫藍尼姆被埋得更深,建築、家具和食品保存得更好。

赫庫藍尼姆比龐貝富裕,很多房屋都帶彩色大理石外墻。郊外坐落著羅馬時代最豪華的別墅,據信由凱撒大帝的嶽父盧修斯·卡爾普尼烏斯·皮索·凱索尼努斯擁有。

凱撒嶽父的豪華別墅還原圖 /圖源:維蘇威挑戰官網

差不多1700年後,當地農民挖井時意外發現了別墅的殘垣斷壁。尋找寶藏的同時,農民還刨出一大堆看起來像煤塊的東西。

這些黑乎乎的「煤塊」就是卷軸——也稱紙莎草卷軸。紙莎草廣泛分布在尼羅河三角洲地帶,古埃及人用它造紙。凱索尼努斯的別墅裏有一座圖書館,內藏1000多卷紙莎草卷軸。

火山噴發時產生的高溫、低氧令卷軸碳化。事也湊巧——別墅距離火山的位置「不遠不近」,溫度也「不冷不熱」,導致所有的東西都被「碳化」,而不是被點燃。碳化之後,土石流奔湧而來,將整個別墅與細菌、空氣隔絕開來。


這是有史以來唯一一個完整幸存下來的古代圖書館,其中包含很多早已散佚的經典。像伊比鳩魯的【論自然】,菲洛德穆的【論善惡】,以及斯多葛派哲學家克律西波斯700部作品裏的三分之一,都還在。

多年來,人們一直想開啟這些卷軸,很多努力都白費了。因為它們就像炸得太焦的春卷,一碰就碎。


1756年,梵蒂岡手稿策展人安東尼奧·比亞喬發明了一種機器,一次可以拆開幾公釐。他花了四年時間才展開第一個卷軸,還令人痛心地弄破了不少。

20世紀初展開卷軸的機器,比起18世紀已經先進了一些 /圖源:維基百科

1802年,拿坡里國王斐迪南四世向拿破侖·波拿巴贈送了六幅卷軸,後來由巴黎法蘭西學院保管。有傳言說,斐迪南四世還給了當時英國攝政王、後來的國王喬治四世18個卷軸,換來18只袋鼠。這些來自澳洲的稀罕物就養在拿坡里某別墅的花園裏。


在任何時代,卷軸都是無上至寶。如果能閱讀它們,就更好了。

學者們保守估計,未開封的卷軸中,至少有30多種人們從來沒見過的歷史著作,涵蓋從希臘到羅馬、從西方到東方的作者及學派。

拆封

2002年,肯塔基大學電腦科學教授布倫特·西爾斯正存取倫敦大英圖書館。當時他和一位同事要制作公元8世紀敘事長詩【貝奧武甫】手稿的數位版本。

圖書館保管員拿出一份手稿給他看,彼此都十分惋惜。手稿損壞得太嚴重了,根本無法開啟。


布倫特·西爾斯和團隊在牛津「鉆石光源」使用粒子加速器 /圖源:維蘇威挑戰官網

西爾斯發明了「虛擬拆封」三步法,在不開啟卷軸的情況下閱讀內容。


首先,使用X射線進行3D掃描,該技術與CT掃描的技術相同。其次,分析掃描結果,找到彎曲的單層,同時將單層壓平。第三,在已經2D化的平面層中,尋找書寫留下的墨跡。


2006年,西爾斯旗開得勝——「開啟」了一本希伯來語傳道書。


2015年,他和團隊成功閱讀了碳化的「隱基底卷軸」。隱基底位於死海西岸,大衛曾逃到此處躲避掃羅的追殺。隱基底卷軸距今1700至1800年左右,其中包含利未記的文本。利未記是猶太律法書,舊約的一部份。


隱基底卷軸的墨水含鉛。但赫庫藍尼姆紙莎草卷軸上的墨水是煙灰做的,也就是說墨跡和紙張都是碳基的,極難分辨。

物理展開的卷軸,想象一下分辨字跡有多難 /圖源: 維蘇威挑戰官網


為了大振幅提高分辨率,西爾斯和團隊求助於牛津的粒子加速器——精度高達4—8微米(1微米是1公尺的一百萬分之一)。

2023年初,西爾斯的學生史帝芬·帕森斯證實,機器學習模型可以進一步辨別紙莎草上的細微痕跡。

比賽

2020年初,科技投資人、GitHub的CEO納特·弗瑞德曼,因Covid-19大流行而禁足在家,熬夜讀完了【古羅馬的24小時】。

這本書是八年級讀物,但弗瑞德曼完全「陷進去了」,把維基百科的羅馬詞條倒背如流。他甚至開始「Cosplay」古羅馬人的生活:網購了2000年前就有的傳統小麥,烤出了龐貝古麵包。

瘋狂檢索時,弗瑞德曼偶然「跳進」赫庫藍尼姆紙莎草的維基百科頁面,發現了西爾斯的艱苦努力。

2022年,弗瑞德曼邀請西爾斯到訪。在加利福尼亞州索諾馬縣,每年都有75人參加他的豪華露營活動。弗瑞德曼說服西爾斯當眾演講,為考古計畫拉點贊助。

沒人感興趣,弗瑞德曼決心自己幹——靠開源社群的辦法,舉辦「維蘇威挑戰」賽。啟動資金來自弗瑞德曼和朋友格羅斯,每人捐贈12.5萬美元。接著,弗瑞德曼辦了一場「推特馬拉松」,籌到140萬美元。

GitHub上卷軸的墨跡測試頁面 /圖源:作者截圖

大獎發給第一個閱讀出卷軸中至少4段連續且合理文本的人,每段至少140個字元。獎金70萬美元。


2023年3月15日,「維蘇威挑戰」賽正式啟動。


西爾斯告訴弗瑞德曼,「我已經為此工作了很長時間。最終我會解開它的,但不知道要花多長時間。可能需要很長很長的時間吧。」弗瑞德曼安慰他,樂趣常在,畢竟「咱們就想讀卷軸」——這成了他們的口頭禪。

一個星期後,在SpaceX當實習生的盧克·法裏托,正待在德克薩斯州南部的博卡奇卡發射場,有一搭沒一搭地聽播客。聽到弗瑞德曼解釋「維蘇威挑戰」時,他想,「天哪,我必須試一試」。

2023年6月,法裏托找到了尋覓墨跡的門徑,訓練出一個機器學習模型。8月,他讀出了三個希臘字母。10月,他辨識出10個清晰字元,贏得「維蘇威挑戰」第一項大獎「單詞挑戰」。

冠軍

2024年2月5日,「維蘇威挑戰」官方網站頒布2023大獎。

2023大獎的目標,就是弗瑞德曼和西爾斯最初設定的目標:辨識4個段落,每個段落140個字元,至少有85%的字元可以確證。最終,70萬美元獎金頒發給三人團隊,以表彰他們的出色探索,三位冠軍是:優素福·納德,盧克·法裏托,朱利安·席利格。

左起, 優素福·納德,盧克·法裏托,朱利安·席利格 /圖源:維蘇威挑戰官網

法裏托和納德就是「單詞挑戰」的第一名和第二名,席利格是蘇黎世聯邦理工學院機器人專業的學生,擅長分割圖形圖層。三人組隊,一舉辨識出2000多個字元。

冠軍隊送出的內容,包含了三個不同模型架構分析的結果,同時,每個模型架構都支持其他模型的成果。效果最好的,來自TimeSformer模型。他們設計了好幾種措施,防止過度擬合和辨識幻覺。其程式碼已經在GitHub上公布。

席利格的自動分割方法,是比賽啟動以來最強大的影像分辨技術,不僅能驗證此前的墨跡,還能展示卷軸最外層的墨跡。

1900多年之後,卷軸目前可以閱讀到的文本如上 /圖源:維蘇威挑戰官網

總結冠軍隊的「經驗」,大概有三點。

首先,拆封凱索尼努斯的紙莎草卷軸,難點不在於「破譯文字」,在於將層層碳化、難以剝落的紙張展開、可見,這全賴技術的突破。

利用粒子加速器,研究者進行高分辨率的X光三維斷層掃描,取得卷軸內部高畫質數據。卷軸就像是一塊長10厘米多一點的春卷,要被「切」成1萬多張薄片,再把這些薄片拼成3D數據。這一步就已經昂貴且艱難,據計畫方估算,如果將800個卷軸全部掃描完,約花費3千萬美元。

其次,拿到數據後,難點是解讀數據。研究者要把黏在一起的三維粒子訊號重新分層,還原成展開的平面。就像切掉春卷的一片,選中面皮部份,辨識它在Z軸的走向,把該曲面一層層剝離出來,再把剝離完展開的平面,串成連續的平面。

「春卷」的面皮在高溫中高度粘連,極難區分。目前網站上展示的15個平展段落,由專人程式、手動標註完成,只占卷軸的5%。

最後,辨識墨跡。上文提到,這些紙莎草卷軸上的墨水由煙灰制成,在X光下,紙張和墨跡的訊號對比度幾近於無。人工智慧大展身手,這正是其最擅長的地方——人眼看不到細微差別,透過神經網路來訓練AI辨識。

AI辨識不是光學辨識,而是小視窗、一個像素點一個像素點來判斷墨跡有無,最終產出一個二元影像,再人工讀取有墨水的部份所組成的「圖案」,從根本上避免AI生編硬造。

復雜的卷軸展開過程 /圖源:維蘇威挑戰官網

反過來說,這些AI辨識出來的文本,也狠狠打了「希臘偽史論」者的臉。程式碼是開源的,技術是公開的,參賽者彼此競爭,彼此交叉驗證,這裏沒有任何陰謀論的空間。

快樂

拆封的第一卷,5%內容已經展現。傑出的古文字學家、紙莎草專家和哲學家告訴我們,文本的主題是「快樂」。

如何正確理解快樂,是伊壁鳩魯哲學中最高的善。在這兩段連續的文本中,作者關註的是食物等商品的供應是否能提供快樂,以及如何影響人們的感受。


文本對照,文中強調快樂的定義 /圖源:維蘇威挑戰官網

「數量少的東西會比數量多的東西帶來更多的樂趣嗎?」

作者認為:「就像食物一樣,我們不會立即相信,稀缺的東西一定比豐富的食物更令人快樂。然而,沒有豐沛報酬的事情,我們會自然而然去做嗎?」

有人猜測,這是菲洛德穆寫的。他是凱索尼努斯的別墅的常駐哲學家,希臘化時代晚期的伊壁鳩魯主義者,曾在這所圖書館工作。像其他伊壁鳩魯主義者一樣,他把快樂看得高於一切。

當然,快樂不代表放縱。雖然他們的批評者都這麽看。


給黑乎乎的「煤塊」稱重 /圖源:維蘇威挑戰官網

公元前300多年,伊壁鳩魯延續了阿瑞斯提普斯(蘇格拉底的學生之一)的論點,認為最大的善是驅逐恐懼、追求快樂,達到一種寧靜且自由的狀態,並透過知識免除生理的痛苦,降低欲望。他的弟子都有同樣的基本認識——哲學必須貢獻給寧靜與和平。

與其說這是一篇哲學論文,毋寧說是一段「部落格隨筆」,穿過2000年的煙塵,我們似乎和作者一起思考,如何享受生活,如何感受快樂。即使作者很有可能在後續的文章裏十分「學術」——大戰斯多噶學派,因為後者「對快樂無話可說」。

在「快樂」問題上針鋒相對的伊壁鳩魯學派和斯多噶學派,討論的問題在今天依然具有重要意義:生活的樂趣是什麽,什麽樣的生活才值得過?

想到這一倫理問題是蟬聯全球新聞頭條好幾年的人工智慧「搶救」出來的,更有一種奇妙的「快樂」。


2023年,瓜分85萬美元大獎的團隊及其作品 /圖源:維蘇威挑戰官網


是熱愛和樂趣,把電腦科學家、古文字學家、哲學家和投資人凝聚在一起,共享一點一滴的發現和技術進步,為後來者掃清障礙。哪怕資金不太夠,時間也很緊張。

是熱愛和樂趣,讓今天的人們對古文明充滿了期待,新的亞里斯多德的對話、李維的羅馬史、荷馬的史詩,莎孚的只言片語,都有可能從這堆灰燼中閃耀現身,重新整理經典的規模和深度。

「維蘇威挑戰」是21世紀20年代最大的烏托邦——對,不是ChatGpt,不是神經網路,也不是可控核融合這些技術本身。

在一個共同的目標上,人類的智慧凝結在一起,利用最先進的科學技術,與遙遠的文明產生靈魂的連線。這是單純的技術進步無法帶來的意義。




作者 | 榮智慧

值班主編 | 趙靖含

編輯 | 向由

排版 | 起起