當前位置: 華文世界 > 科技

AI改變人類的600多天

2024-08-30科技

薛芳 作者

王偉凱 編輯

兵馬俑開口,蒼涼雄渾的秦腔一聲吼,「八百裏秦川,千萬裏江山……英雄千百萬,多少的故事永流傳……」靜默千年的文物,依托AI技術,「蘇醒」了過來;從「北宋」穿越而來的蘇軾唱起了【水調歌頭】;孔子、老子、韓非子、蘇格拉底,跨越時空上演了「百家爭鳴」……

這是近日央視【2024中國·AI盛典】晚會上展現的盛況,這些都依托於當下的生成式AI技術。而這一切緣起是,2022年11月20日,美國舊金山,一家名為「OpenAI」的人工智能研究機構公布了一款名為「ChatGPT」的免費套用。

瑞銀集團的一份研究報告顯示,在ChatGPT推出兩個月之後,它在2023年1月末的月活使用者就已經突破了1億,成為歷史上使用者增長速度最快的消費級應用程式。相比之下,其他幾款也曾經風靡全球的套用,例如TikTok達到1億使用者用了9個月時間。

人們將此視作人工智能科學技術的第三次爆發。 第一次是1997年5月,IBM公司開發的「深藍」國際象棋程式打敗了當時的國際象棋世界冠軍卡斯巴羅夫;第二次是2016年3月,由DeepMind公司開發的圍棋人工智能程式AlphaGo打敗了當時的圍棋世界冠軍李世石。

有人將ChatGPT與iPhone相提並論。正如輝達創始人兼行政總裁黃仁勛認為:「我們正處於 AI 的‘ iPhone 時刻’。」比爾·蓋茨此前評價ChatGPT稱,這種人工智能技術出現的重大歷史意義,不亞於互聯網和個人電腦的誕生。

人們對人工智能的感情稍顯復雜。人最重要的特征——思考和推理的能力,現在人類不再獨有。誠如尼采所說: 「如果把悠閑的沈思從生命中剔除出去,那麽人將毀於一種致命的積極性。」 有人預測,人工智能超越人腦只是個時間問題,一個全新的時代正在拉開序幕。

產業界也被AI浪潮撕裂兩波,馬斯克認為超級AI會像碾死螞蟻一樣摧毀人類。小冰公司CEO李笛告訴【AI光年】:「影視劇中AI控制奴役人類是一種想像中的浪漫主義,AI現在還處在一個相對早期的階段,很多思想和理念也是特別原始的狀態,我們甚至可以稱之為蠻荒時代。」

即便如此,不得不承認,當下人工智能已經不再是人們暢享的未來,未來已來,技術的理想已經照進現實。

ChatGPT對IT、教育、金融、創作等諸多職業領域的沖擊,當下正被廣泛討論。突飛猛進的人工智能究竟會給我們人類生活帶來什麽樣的影響?比如說,會不會迎來大規模的失業或者就業的重組?

跨時代的技術奇異點來臨

其實,在ChatGPT之前,第一個聊天機器人誕生於20世紀60年代中期,東部的麻省理工學院 (MIT) ,有一位科學家維森鮑姆,整日對著電腦,正在思索一個問題——是否有可能實作圖靈關於人工智能的想法?

圖靈1950 年在他的題為「 電腦械與智能 」的論文中提出,如果一台電腦可以透過文本與人類進行令人信服的對話,則可以認為它是智能的,這一思想也是著名的圖靈測試的基礎。

維森鮑姆那一時期要做的,是現在稱為NLP (自然語言處理) 的問題。當時已經存在一些基本的數碼語言生成器,使用者可以使用打字機輸入人類的自然語言,然後獲得機器的響應,機器可以輸出一些連貫的文本。

然而,並沒有一個明確設計用於與人互動的程式。維森鮑姆改進了一種名為 MAD-SLIP 的專有程式語言,用200行程式碼來建立了一個程式。特別令人興奮的是,程式雖簡單效果卻不錯。1966年,維森鮑姆推出了世界上第一個聊天機器人ELIZA。

基於當時計算技術發展的水平,維森鮑姆認為,實作人機之間對話的最佳方式是模仿精神分析的方法——利用重複結構,讓程式重復單詞並重新表述以問題形式給出的陳述。因此,ELIZA並不需要真正理解輸入和輸出的含義,但它的反應能夠給人一種「具有智能」的錯覺。

維森鮑姆不相信任何機器能夠真正理解人類對話,他在1977 年接受【紐約時報】采訪時表示: 「成為一個人是必要的。愛和孤獨與我們生物體質的最深層後果有關。對於電腦來說,這種理解原則上是不可能的。」

但人們對程式是如何運作的毫不在意,對繼續和機器對話有著深深的癡迷。 1948年,山農把離散馬可夫過程的概率模型套用於描述語言,之後,他又把熱力學中「熵」的概念套用於語言處理的概率演算法中。

之後自然語言結合機器深度學習技術。這是一項可以大幅提升AI系統效率的方法,即所謂「深度學習」,主要就是以這種反向傳播技術為基礎,這項技術發明於20世紀60年代,並於20世紀80年代中期由Geoffrey Hinton (被稱為「神經網絡之父」) 套用到神經網絡。

後來又有了大模型,NLP (自然語言處理) 及聊天機器人都到達了一個新的發展高峰。即便如此,人們對機器聊天人的看法停留在「情商」還行、「智力」明顯不足的層面。

業界有一個觀點是:過去的30多年中人工智能並沒有任何重大的概念進步——目前我們在人工智能研究和媒體上看到的大部份內容都是透過大量昂貴的計算硬件和復雜的公關活動渲染出來的。

但ChatGPT的出現改變了這一局面。 對NLP(自然語言處理)並不了解的公眾在使用ChatGPT後,好奇的是它如何做到「像人」的?使得ChatGPT完成「智力」飛躍的是一套「使用人類反饋指令來訓練語言模型」的方法。 這套方法是由2022年初推出的InstructGPT率先采用的。

OpenAI團隊聘請了人類標註員依據收集到的使用者需求撰寫精準範本,為機器示範如何做回答,並對模型生成結果進行人工微調。隨後,接受完調教的機器會「考試」,也會被打分。最後,機器會在不斷的「考試」中,逐漸習得人類的語言能力。

「以前的做法是讓機器忘掉人的智慧,然後超越人,今天的做法是讓機器學習人。核心的關鍵詞就是語言AI。自然語言處理是人工智能皇冠上的明珠,就是因為語言所包含的這樣一個內容去理解它是特別大的難題。OpenAl非常巧妙的是找到了新的一種方法,能夠把整個互聯網的語言都學會了,我們稱為叫語言模型。」王小川對【AI光年】分析。

這些看著微小的進步,OpenAI需要付出巨大的成本。據【財富】雜誌報道,OpenAI 2022年的收入預計不足3000萬美元,凈虧損總計為5.445億美元。

「通用大模型的訓練成本,我們預估的大概10億美金左右,這僅僅是算力部份,還沒算另外兩個很花錢的部份,一個是數據,一個是人力成本,現在全球大模型領域的人才,是非常稀缺的。」將門創投創始合夥人、前微軟創投大中華區負責人杜楓博士告訴【AI光年】。

當然,業界對於ChatGPT的反應並不一致。圖靈獎得主楊立昆是Meta首席科學家,他對ChatGPT的評價是,「就底層技術而言,ChatGPT並不是多麽了不得的創新。雖然在公眾眼中,它是革命性的,但是我們知道,它就是一個組合得很好的產品。」

大模型仍有幻覺。「ChatGPT的論證過程也是一本正經的,但其實是在胡說八道,比如網友問,「如果你是【紅樓夢】中的賈寶玉,你會選擇誰做老婆」,ChatGPT給出的結果是「會選擇賈母做我的老婆」。」小冰公司CEO李笛告訴【AI光年】。

理想上慢一步 落地上快三步

ChatGPT引發的全球性熱潮在重塑整個產業鏈。中國的大廠也做了迅速跟進,一些互聯網老兵——閆俊傑、王小川等,互聯網大廠的中高層,再加上一些學院派的科學家,紛紛加入這波大模型創業浪潮。

在王小川看來,中國需要迎頭趕上,現在也不算太晚。「追上ChatGPT 3.5水平,我覺得2023年內可能就能夠實作,但對於ChatGPT-4或者ChatGPT-5,我認為可能需要3年左右的時間,應該不會低於兩年。」王小川曾對【AI光年】表示。

「我們比OpenAI的理想慢一步,落地快三步。」王小川表示。AI發展到何等地步了?它正在如何重塑千行百業,AI套用落地距離現實越來越近了。那麽,它將把我們帶向何方?我們究竟應該以何種態度來面對AI?

中國在落地場景上的優勢在央視【2024中國·AI盛典】得到了具象化展示:AI修復永樂宮壁畫、AI兵馬俑和古人形象、AI數碼熊貓、AI物流套用、AI農業套用、AI服裝設計、AI家電智造、無人機巡檢、AI修復老照片老影片和AI機器人。

在山西永樂宮壁畫的修復中,為解決永樂宮壁畫「修復難」問題,依托AMD的計算引擎,生數科技基於多模態大模型的影像生成能力,讓AI學習壁畫的專業美術知識,實作壁畫內容的高效自動修復。

生數科技CEO唐家渝告訴【AI光年】,「我們公司從創立的第一天起,就是用的Diffusion+Transformer的架構,是跟Sora底層這個DIT其實是幾乎一樣的架構。」

「另外一方面像Diffusion這種為主的架構,我們把Diffusion跟Transformer結合了這種Diffusion+Transformer架構,它本質上還是一個擴散模型,它比較強的在於生成的部份,這種視覺類的一些生成,都能做的比較好。」唐家渝闡述。

由於大規模本土化的知識訓練,生數科技的自研影像生成模型對壁畫等中國元素具有較強的理解和生成能力。在此基礎上再引入專業的壁畫與美術知識,對大量古代壁畫的影像數據進行針對性的裁切和標註,對模型進行訓練微調,讓模型從色彩、筆觸、人物造型等方面學習到永樂宮壁畫的獨特繪畫風格,進而實作自動修復。

而AI兵馬俑和古人形象,這場表演背後的「復活召喚術」,叫EMO,來自阿裏通義實驗室。一張照片和一段音訊,EMO就能讓靜止的形象衍生出逼真的演唱影片。實際上,早在今年 2 月,通義實驗室就公開了 EMO (Emote Portrait Alive) 相關論文。

目前,AI領域達成的共識和技術難點:sora已經可以生成60秒影片,而市面上都是3-5秒的影片生成模型。7月22日,快手視覺生成與互動中心負責人萬鵬飛在中科大北京校友會的活動上分享:「得益於演算法和工程的深度聯合最佳化,可靈模型現在生成的影片長度從5S提升到10S。」

而通義實驗室專註攻克的難點是:基於音訊驅動的人物影片生成。不同於常見生成式AI的玩法,EMO基於音訊驅動的人物影片生成是從音訊跨越到影片模態的生成過程。這種影片的生成涉及頭部、眼部、唇部等一些動作和多個要素,且在保持影片內容的一致性和流暢度外,也好符合一定的物理規律。

通義實驗室套用視覺團隊負責人薄列峰表示,EMO 的關鍵創新點「弱控制設計」很好地解決了上述問題。無需建模就可驅動肖像開口說話,不僅降低影片生成成本,還大幅提升了影片生成質素。

據悉,通義實驗室研究團隊為 EMO 模型構建了一個龐大而多樣的音影片數據集,總計超過 250 小時的錄影和超過 1.5 億張影像。並在此基礎上進行了訓練,不僅能夠找到音訊中具體發音與人像口型的匹配關系,並將音訊暗含的情緒色彩反映到了人物微表情上。

眾所周知,OpenAI的sora影片生成背後的技術框架是基於 Transformer 架構的新型擴散模型 DiT,但EMO 並不是建立在類似 DiT 架構的基礎上。

「全真大熊貓」是國家林業和草原局、中央廣播電視總台聯合騰訊公司釋出全球首只數碼大熊貓,依托於騰訊的混元大模型,讓它擁有強大的語意理解和邏輯思維能力,「全真大熊貓」不僅能與使用者揮手打招呼、聊天、科普,還解鎖了翻跟鬥、掃地等一系列萌趣可愛的動作。

騰訊混元大模型是由騰訊全鏈路自研的通用大語言模型,擁有超千億參數規模,預訓練語料超2萬億tokens,具備強大的中文創作能力,復雜語境下的邏輯推理能力,以及可靠的任務執行能力。

據騰訊集團副總裁蔣傑介紹,騰訊混元大模型從第一個token開始從零訓練,掌握了從模型演算法到機器學習框架,再到AI基礎設施的全鏈路自研技術。

此外,騰訊以遊戲科技高擬真建模技術,對「全真大熊貓」超過200萬根毛發進行復雜的幾何細節處理,使毛發的質感、紋理與動態過程更接近真實。同時,騰訊根據熊貓真實的生理結構,透過智能骨骼繫結、「超 3A 影視級」高精度生物體渲染,使得大熊貓仿真重現。

「在套用這塊,中國在AI套用上的創新一直是比美國領先的,因為中國的套用場景多數據多。」朱嘯虎在接受【AI光年】采訪時表示。

當下,AI以勢不可擋的姿態向我們每個人的生活襲來,「認知革命」就顯得非常重要,而主串流媒體的理念引領、知識普及更是不能缺失。

中國電影家協會副主席、清華大學新聞與傳播學院教授尹鴻認為,【2024中國·AI盛典】是一個面向未來的科技傳播視窗,也是一次「科技+藝術」的創新實驗。節目展現了人工智能在各行各業的廣泛套用,也有修復、重現、互動、沈浸等各種傳播形態,使得科技傳播有了溫度,有了藝術的感染力。

「【2024中國·AI盛典】不僅在爆炸般的資訊中為觀眾梳理了關於人工智能最真實有效的內容,更以創新有趣的表達方式,帶領大家快速走進AI,拉近科技與公眾的距離。這對於AI在中國健康有序發展起到了很好的基礎性作用。」中國科學院自動化研究所研究員、聯合國人工智能高層顧問機構專家曾毅表示。

未來已來 無人能置身事外

98歲老人張長祿與26歲的青年張長祿「相遇」在被AI還原的影片中——「1952年奧運會,新中國的第一支代表團亮相奧運會場,那個手持國旗,意氣風發的持旗手叫做張長祿。」從1952到2024,時間已經整整過去了72年,老人看到短片禁不住熱淚盈眶。

借助AI技術,「兩彈一星」功勛錢學森先生也出現在大螢幕上,跟著孫悟空去往天宮,實作他兒時最大的夢想,並在中國空間站「遇見」航天員楊利偉和王亞平,讓觀眾再一次「眼見為實」,感受到中國科技界的群星璀璨。

央視這場盛典也展現了其實AI不止於AIGC ( Artificial Intelligence Generated Content / AI-Generated Content) 譯為人工智能生成內容,AI也在實實在在得改變產業界。

央視的鏡頭也展現了AI賦能實體經濟,助力鄉村振興的多元套用。新疆尉犁縣,因為有了遙感無人機、農業無人車等各司其職的智慧農業系統,只需兩個人就可以把3600畝高標準農田管理得井井有條。

無論是青島海爾冰箱燈塔工廠,還是江蘇無錫國內最大的機器人自動揀選智能艙,或者是粵港澳大灣區首個5G智慧港口媽灣港;有序、高效的智能物流場景,都有著「科幻大片」照進現實的震撼。

而在小冰的CEO李笛看來,「人工智能對我們普通人來講最大的改變,不是繪畫,不是ChatGPT,是手機所對應到的計算攝影,使得手機拍出來的照片,比自拍好很多,我認為這是更有價值的,但不那麽有魅力。」

當下AI還處於早期,但未來已來,在新的技術浪潮中,無人能置身事外。

200多年前,攝影技術剛誕生時,畫家們也是眼睜睜看著照相機攻城略地,法國著名設計師保羅·德拉羅也留下了那句經典的論斷:「從今天起,繪畫死亡了。」但歷史的車輪呼嘯而過之後,現如今繪畫和攝影仍各安一隅。

當AI技術進入影像生成領域,歷史似乎進入輪回,大批設計師面臨失業。對大多數設計師而言,離開還是留下,是個生存問題。時代的一粒沙,落在每一個設計師個體的身上,就是一座山。這是硬幣的一面——殘酷和暴力。

而硬幣的另一面則是——顛覆、平權和擁抱。

「AI讓很多普通人都有了設計能力,透過精準的描述就可以出一個不錯的藝術作品,它提供的是一個平權的能力;而設計師利用好AI的話,就有了效率平權的機會,其設計上限會更高,他們可以依靠AI蛻變成超級個體。」視覺創意平台站酷創始人梁耀明告訴【AI光年】。

不僅僅是設計師,在新的技術浪潮中,無人能置身事外。高盛的一份報告顯示,人工智能可以取代3億個崗位,OpenAI研究人員釋出論文顯示:約80%美國人的工作將被AI替代。

AI真的會取代很多人的工作嗎?聯想集團董事長兼CEO楊元慶認為,每次技術進步都會打破很多「舊飯碗」,也會誕生更多的新機會。

「世界上最顛覆的技術是疊加,而不是取代。」中國工程院院士、之江實驗室主任王堅認為,人類的處境首先是「共存」,和大自然共存,也要和我們自己創造出來的東西共存;然後是「疊加」,人工智能疊加人的智慧,將為創造新生活帶來更好的機會,其意義大過第一次航海,也大過第一次離開地球。

人類歷史上每一次技術革新,都是「興奮」與「焦慮」同在,「期待」與「抗拒」交織。

「AI取代人類的工作,這個周期拉長到5-10年去看,還是很有意義的,想想20年前互聯網時代來臨的時候,想想第一次工業革命到第二次工業革命,周期拉長之後發現每個人的生活都發生了翻天覆地的變化,工業革命多數人背井離鄉,到城市,再到公司的格子間。其實每一次大的變革本質都一樣。」 愛分析創始人兼CEO金建華告訴【AI光年】。

在這個變革過程中,有的人可能在反抗,有些人在拒絕,他們想保持自己的生活狀態,從每一次的變革歷史證明中可以看出,每個人到最後是不得不擁抱。金建華認為,這個過程中是積極擁抱,還是在焦慮和恐慌不安中接受,本質是大家如何更好得面對這件事情,這是一個可以花10到20年去研究的課題。

而關於更久遠的未來,AI想要達到鋼鐵俠的智能管家「賈維斯」的效果,還有很長一段路要走。「賈維斯」是一套集合了大數據分析、自動駕駛、語意分析、雲端運算等多種技術的智能平台。人工智能的產業鏈,分為基礎層、技術層和套用層。

AI什麽時候才會像人一樣思考?中國工程院院士、鵬城實驗室主任高文認為:」要真正實作通用人工智能,可能要到2060年。」