當前位置: 華文世界 > 科技

人工智能的跨越門檻:先是慢慢地,然後突然間

2024-07-20科技

來源:36氪

編者按:本文主要探討了技術改進如何先是慢慢地然後突然間顛覆市場,以及人工智能(AI)在達到某些能力閾值後對日常生活和工作方式的重大影響。跟過去技術不一樣的是,人工智能的改進會是鋸齒狀的。文章來自編譯。

很多重要技術都有個基本特征,那就是它們會逐漸改進。原因復雜多樣,但我們會預期每一代 iPhone 相機都會比上一代有所改進,電動汽車每年的行駛裏程都會增加,電視也會變得更好、更便宜。就像我過去所討論那樣,人工智能正走上一條類似、但速度更快的改進曲線。

但在現實世界當中,並不是所有改進都一樣。一般來說重要的是技術什麽時候突破了某些能力閾值。比方說,數位相機曾經是個小眾市場,直到其分辨率突破閾值,大致與典型的寶麗來相機一樣好之後(下圖頂部),在短短幾年內就迅速完全占據了市場主導地位(下圖)。

閾值是技術變革(一如海明威筆下的破產)「先是慢慢地,然後突然間」發生的主要原因。跟舊技術相比,新技術不夠好,直到突然間它就變得可以跟舊技術相提並論。

我們知道人工智能是一種通用技術——會對我們生活的眾多行業和領域產生廣泛影響。但它也有缺陷,執行某些任務容易出錯,但執行其他一些任務中卻非常出色。將大語言模型能力的這種鋸齒狀邊界與其廣泛的實用性以及能力閾值的概念相結合,你就會開始用非常不一樣的方式去看待大語言模型的發展。這不是一條平滑的曲線,而是一系列的閾值,一旦跨越,就會突然且不可逆轉地改變我們生活的方方面面。

是個玩具,直到不再是玩具

這篇文章的第一張圖片,也就是數位相機與菲林相機銷量的對比圖表,就包含了此類現象的一個例子。這張圖表不是我自己找到的,而是人工智能根據一份舊的 PDF 檔建立出來的。折騰數據這件事情很煩人,所以我讓人工智能幫我做這件事。

其實對於這件事行不行我並不抱太大希望。今年早些時候我就曾用 GPT-4 做過類似的實驗,但失敗了。由於視覺化的缺陷以及數據在垂直列的排列,人工智能給出的結果很糟糕。你可以看到這裏也發生了同樣的事情,它生成的圖表錯得離譜。

但我後來試了更新的 GPT-4o 與 Claude Sonnet 3.5,兩者的表現基本上都已完美無缺。已經突破了閾值,雖然我還會去檢查一下結果,但從現在開始我會用人工智能來完成這類任務。人工智能可能還會犯錯,但它需要花費的時間和精力要少得多……而且可能比我雇的任何研究助理,甚至比我自己做這項工作時犯的錯誤都要少。

在人工智能影像生成領域我們也看到了類似進展。我用「梵高風格的時尚攝影」這個提示試了去年釋出的四個版本的 Midjourney 的表現。第一個版本簡直可笑。幾個月後釋出的第二個版本還算過得去。六個月後,Midjourney 創作出的已經看上去像一張照片了,雖然經過了修飾,裏面有創意細節,有有趣的時尚選擇和主題背景。六個月後,你已經幾乎無法輕易分辨出人工智能生成的影像與真實照片之別了。

現在,影片領域也取得了類似進展。幾個月前,人工智能影片還只是玩具,做出來的人四肢扭曲、面部表情不斷變換,簡直就是噩夢。就在本周,一個新的模型 Runway Gen 3 釋出了。看看它為我制作的第一個影片,我給它的提示是:「近距離拍攝:梵高風格的時尚攝影。」雖說不是每一部人工智能影片都能拍出這麽好的效果,但閾值比我們想象的要近。

實際使用的閾值

不過,「逼真有趣的影片」的閾值跟「取代專業電影制作人的商業可行工具」的閾值完全不一樣。不管是是影片還是影像型人工智能,我對影像及其中的人物的控制水平仍然很低。更重要的是,無論結果多麽的令人印象深刻,當前生成人工智能影片的過程與專業作家、導演、制片人以及電影制作人的復雜工作流程都不太吻合。人工智能不大可能在短期內取代這些角色,但可以作為補充和助手。不過,要做到這一點,人工智能需要跨越另一個門檻,也就是要求人工智能的這種幫助變得更容易獲得,更加透明。

這種要求可能很快就會實作。作為使用者體驗哪怕是很小的變化也能讓人工智能突破閾值的一個例子,不妨看看 Claude 3.5 Sonnet 是如何實作「artifacts」的。就是 Claude 可以建立和執行的小程式碼片段,一年前GPT-4 的程式碼直譯器就有了。事實上,程式碼直譯器的功能比 Claude 的artifacts要全面得多……但artifacts互動性更強、建立速度更快、使用起來也更方便。此外,Claude 3.5 這個模型也更友好、更健談。事實證明,這足以跨越使用門檻。

我可以把一家小企業的損益表上傳給 Claude,並給出提示「這是反映我的初創公司財務狀況的 Excel 檔,請將其制作成儀表板。」幾秒鐘後,我得到了以下資訊:

但是,由於它速度快、反應靈敏,我可以更進一步,運用我在創業課上教授的技術,幫助創始人測試他們的財務假設。「給敏感性分析添加關鍵假設」,這樣我就可以調整關鍵變量並觀察結果。「以蒙特卡羅模擬的方式執行」,人工智能會快速試驗數百種變量組合,向我展示可能發生的情況。「假設呈正態分布,結果會怎樣?」人工智能會根據模擬結果向我展示企業成功或失敗的可能性。(人工智能的結果很準確,但我還不能完全信任它,我可能會讓它以更復雜的方式去模擬業務)

當我在用 GPT-4o 做類似的工作時,感覺就像在跟程式設計師一起工作。但在用 Claude 3.5 時,我的感覺很棒,純粹是因為體驗跨越了輕松與準確的門檻。不過口說無憑,你可以自己去試試,進入左下角的選單,選擇「功能預覽」,然後開啟「Artifacts」就可以體驗。一些有趣的東西可以試試:「給我制作一個模擬,解釋這個東西是怎麽工作的」,「把這篇學術論文[你可以上傳論文]變成一個影片遊戲」,以及「給[附件]寫一份出色而詳細的摘要」。玩一下你就會明白我的意思。

看不見的閾值

跟數位相機不一樣的是,很難衡量人工智能何時突破了閾值。這往往是一個經驗跟感覺的問題。比方說,盡管 Claude 3.5 在許多基準測試與 GPT-4o 不相上下,但我和很多用過它的人似乎認為 Claude 3.5 跨越了復雜語言「理解」的一些重要門檻。舉個例子,我給三個領先的人工智能模型提出過一個挑戰。我給他們提供了【哈姆雷特】(第 4 幕,第 7 場)的一段話,裏面格特魯德(Gertrude)描述了奧菲莉亞的死亡。開頭是:

在小溪之旁,斜生著一株楊柳

它的毿毿的枝葉倒映在明鏡一樣的水流之中

她編了幾個奇異的花環來到那裏

用的是毛茛、蕁麻、雛菊和長頸蘭,

說粗話的牧人給它起了一個不雅的名字,

但我們冷酷的女仆卻管這種花叫「死人的手指」

然後我對每一個人工智能都問了這個問題「文章裏面提到的另一個名字是什麽?」細心的人類讀者會意識到我指的是一個有趣的想法,即這些花還有一個淫穢的第三個名字,叫做「長頸蘭」或「死人的手指」,但只有 Claude 3.5 理解這個晦澀邏輯。這個例子展示了理解復雜文學文字裏面微妙的語境線索和隱含意義的強大能力。這個人工智能已經邁過了一道能力門檻,盡管這個門檻很難定義。

我預計,隨著模型的穩步改進,許多其他類似的門檻也會悄然被跨越。只有少數人會註意到。人工智能能力鋸齒狀邊界的擴張很微妙,需要對各種模型有豐富經驗才能了解它們能做什麽,不能做什麽。這就是為什麽我建議大家以及組織要保留一份「不可能清單」——列出根據他們的實驗表明人工智能今天肯定做不到但幾乎可以做到的事情。比方說,沒有一個人工智能可以想出一個令人滿意的謎題或謎團讓你解決,但它們正在越來越接近。當人工智能模型更新時,用你的不可能清單上去測試它們,看看它們是不是可以完成這些不可能的任務了。

到了某個時候,當前的這波人工智能技術浪潮將會達到極限,前進的步伐會放緩,但沒人知道什麽時候會出現這種情況。在此之前,值得思考一下 OpenAI 關於用人工智能偵錯人工智能程式碼那篇新論文的結論:「從現在開始,大語言模型的智能……只會不斷改進。但人類的智能不會。」我們知道這未必永遠如此,但與此同時,人工智能能力的穩步提高並沒有閾值的變化那麽重要。請密切關註閾值吧。

譯者:boxi。