當前位置: 華文世界 > 科技

「人機對齊」:人類文明又到「生死時刻」?

2024-02-18科技

【人機對齊:如何讓人工智慧學習人類價值觀】[美]布萊恩·凱瑞斯汀著唐璐譯湖南科學技術出版社出版 ■唐山

多倫多大學經濟學家甘斯希望女兒能照顧小弟弟上廁所,他想出一個「好辦法」:每幫小弟弟上一次廁所,女兒可得一塊糖果。女兒很快找到竅門:不斷給小弟弟餵水,讓他多上廁所,以得到更多糖果……

甘斯遭遇了典型的「對齊問題」:行動與目標不統一,「需要A卻獎勵了B」。

在人類史上,「對齊問題」一次次帶來困擾,隨著人工智慧(以下簡寫為AI)出現,「人機對齊」成了難題——AI可打敗世界上最好的棋手,我們卻不知它是如何做到的。隨著人類越來越依賴AI,風險真地可控嗎?我們會不會落入科幻短片【戰爭的最後一天】裏的悲慘境地(人類滅絕,AI仍在自動作戰)?

【人機對齊】是一本不太好讀的書,全書分三篇,即「預警」「自主」與「示範」,彼此關聯不大,甚至同篇各章間的邏輯關系亦不明顯。或因本書旨趣不在於說明「AI已發展到什麽地步」,而在於由此引發的思考。

從這個意義看,【人機對齊】不只是科普書,更是通識書,人人都有閱讀它的必要,它應成為現代常識的組成部份——不了解這些常識,你會被現代社會「開除」。

不是技術問題,而是社會問題

玩家知道,所有電子遊戲都有「暗關」。比如玩【魂鬥羅】,可反復打較低階的關,刷分換武器,則過難關會更容易;再如老版【FIFA】,下底傳中必進,借此大招,操縱中國隊也能拿世界杯……許多「暗關」來自設計失誤,不論程式設計師們怎樣小心,也無法完全避免類似失誤。

隨著AI發展,失誤變得越來越不可容忍。

2015年,來自海地的網路開發者艾爾西內利用谷歌照片軟體,在網上分享了自己和親友的照片,讓艾爾西內震驚的是,他們的照片竟被歸類為「大猩猩」。谷歌的技術團隊迅速響應,可幾個小時後,問題依舊,谷歌只好關閉了「大猩猩」這個標簽。直到三年後,用谷歌搜大猩猩,仍看不到任何一張照片。

軟體是怎麽「學會」種族主義的?實際上,技術錯誤從來不只是技術本身的問題。19世紀照相最多的美國人不是林肯、格蘭特,而是菲德烈·道格拉斯,一位廢奴主義者,他發現,照片上的黑人特別難看,因底片均依白人模特校準,形成化學配方,拍出的黑人則千人一面。

解決該問題似乎不難,多找黑人模特即可。同理,增加黑人照片,谷歌軟體的辨識率會更準確。

然而,結果適得其反:IBM用AI開發了招聘軟體,輸入100份簡歷,選出5份最好的——幾乎都是男性。程式設計師關閉了性別選項,卻無法改變結果。因為AI會透過關聯資訊,自動將女性排除。比如,它會把「上一年沒有工作」的簡歷標註為不合格,於是所有剛生育的女性均遭拒。類似的標簽無所不在,改不勝改。程式設計師們最後發現,他們面對的不是技術問題,而是社會問題——人類社會處處都有性別標簽,透過這些標簽,女性總會被辨認出來,被視為缺乏競爭力者。單靠技術,已無法解決。

無法突破的「不可能性原理」

上世紀80年代,美國司法開始用AI判斷囚犯可否假釋,2000年時,已有26個州如此進行。研究者發現了其中漏洞:黑人初犯者被評為高風險,但他們不再犯罪的可能性是白人的兩倍,白人初犯者反而被評為低風險。

這一發現引發輿情激蕩,人們紛紛要求去掉該系統的種族標簽,結果卻發現,落入IBM招聘系統一樣的困境——假釋系統會透過其他標簽,重新進行種族篩選,但如把相關標簽全撤掉,AI又會失去判斷能力。

研究者們發現,一切判斷都存在著「不可能性原理」,這在數學上得到了證明:沒有標簽,就不可能做判斷;有標簽,又必然有偏見,「原則上,任何風險評分天生都會被批評為有偏見」。

AI開發無法繞過兩大難題:

首先,道德無法客觀化。道德選擇沒有固定標準,會隨情境的改變而變,人類常常無法回答「什麽是真正重要的」,AI更做不到。

其次,精準預測無法減少風險。人類喜歡更精準的預測,從而掉進「預測陷阱」,事實上,造成結果的原因是多元的,預測再精準,也無法影響結果。美國芝加哥市曾列「危險擁槍者」名單,據說他們比其他人死於兇殺案的比例高232倍,即使如此,他們被槍殺的機率也僅有0.7%,如何從1000人中找到這7個人呢?折騰1000人,真能挽救這7個人?在【反對預測】中,作者哈科特寫道:男司機易出事故,可是嚴查男司機,會鼓勵女司機變得更魯莽,車禍率並未下降。

不給答案,因為根本給不出答案

AI模仿了人腦的工作方式,透過大量案例訓練,總結出「經驗」,獲得判斷力。可這些「經驗」正確嗎?比如一款AI診病軟體,研究者驚訝地發現,它得出的「經驗」是:肺病患者如有哮喘病,屬低風險。胸痛有好處。

心臟病有好處。

超過100歲有好處。

這些逆天的「經驗」,可能來自相關患者屬高風險,會被特殊照顧,但AI不知全過程,只知他們經特殊照顧後,痊愈率較高,便認定「有好處」。

AI的大多數「錯誤經驗」之所以不可知,是因為它模仿了人類的神經系統,作為人類,我們自己也不知自己有多少「錯誤經驗」,以及它們形成的原理。透過視覺化技術,研究者們發現,AI的底層充滿荒謬。

比如判斷「什麽是啞鈴」,AI會把手臂、肉色的、超現實的圖案都算成啞鈴,試錯後,這些「經驗」被否定,但並沒消失,而是滯留在底層。人類會情緒失控,我們能模糊地感到,這與底層「經驗」相關,那麽「把啞鈴誤認作手臂」會不會帶來長期影響?

AI正深入生活的方方面面,自動駕駛、醫療、城市管理、戰爭……誰能保證AI的底層經驗不犯錯?人類從沒真正掌控好自我,引發一次次災難,我們真能掌控好AI嗎?

本書第二篇、第三篇將焦點轉向AI發展史,描述了研究者們的突破歷程,包括從單任務轉向多工,用單一AI在不同遊戲中取勝;從外部激勵轉向AI自我激勵;透過模仿、逆強化學習等,使AI更強大……

然而,更強大的AI不等於「人機對齊」,AI實際上在「強制執行自己有局限的理解」,它的目的未必是人類的目的。

當然,在牛津大學教授博斯特羅姆等激進前進演化主義者看來,這些都不是問題。他計算出,未來星際文明非常強大,今天耽誤的每一秒,都相當於失去將來的100萬億人的生命,每向未來世界前進1%,都等於技術加速1000萬年。因此即使AI有風險,也應全力推動。

研究者施萊格裏斯則說:「如果有一個神奇的按鈕,可以把人類變成一樣的為幸福而最佳化的笨蛋,他們會按下它……幾年前,我也鼓吹這樣做。」但現在,他的看法改變了:「我認為不應該按那個按鈕。」

對此,【人機對齊】沒給出答案,因為根本給不出答案。

我們乃至歷史,也許都是「AI」

雖然本書用大量篇幅在講述AI發展的細節,但我更喜歡的,還是書中的「跑題」部份——為強化AI,研究者深入研究了人類自身智慧的產生過程,得出的見解振聾發聵:我們每個人可能都是世界訓練出來的「AI」。

人類擁有智慧,源頭是趨利避害的本能,在多巴胺的簡單獎勵下,塑造出復雜行為——並不是做對了,多巴胺才獎勵快感,而是做新奇的事時,多巴胺才會給獎勵。

所以,人類喜歡刺激、冒險和挑戰。不斷嘗試,就有了更多試錯機會,透過試錯,人類智慧得以成長。人類生活的世界就是「有效的課程」,它像一個大型遊戲。這就可以理解,為什麽電子遊戲讓人難以自拔,因為它比現實世界的獎勵更直接。

在現實世界中,人在前進演化,決定成敗的核心因素,是「獎勵的稀疏性」。比如為了讓人類學會飛,讓人從懸崖往下跳,不會飛便摔死——這並非聰明的辦法。在會飛與不會飛之間,有無數環節,如在每個環節都設定獎勵,人類最終就能學會飛;如獎勵太稀疏,從不會飛直接跨越到飛,必然失敗。正如眼睛,是經四五十次前進演化才完成的。在書中,一位學者開玩笑說,要麽讓自己的孩子學會中文,要麽就不給飯吃,孩子的母親明智地拒絕了這個建議。

作者本想說明研究者透過改變稀疏性,提高AI能力,卻給讀者一個全新的看世界的視角:人類文明的本質就是一個獎勵結構的故事。沿著這一思路,我們會推演出一個完全不同於以往「思想——行動——改變」的歷史解釋的結論,推動進步的力量是多元的,不論個體,還是群體,都沿著稀疏性向密集的方向發展,決定歷史的關鍵因是稀疏性,而非想法、技術、制度或人物。

由此帶來新的認知危機:如果人是受造物,那麽自由是什麽?

在書中,著名思想史學者斯金納指出,在稀疏性面前,人與老鼠相同。當記者問他:「自由意誌還有位置嗎?」斯金納回答:「它還有虛構的位置。」哪怕只為與這句話相遇,【人機對齊】就值得一讀。

(來源:文匯報)