自2022年11月底openAI首次公測ChatGPT以來,人工智能(AI)迎來新一波浪潮,AI產業飛速發展。
「AI在這段時間的發展可以用‘波瀾壯闊’來形容。在此前的很長一段時間裏,人們其實對AI持一種保留甚至懷疑的態度,直到ChatGPT釋出後,人們才發現人工智能真的能夠成為一種生產力。」華東師範大學電腦學院副研究員、前華為榮耀Magic手機首席架構師董道國近日對第一財經表示,「這種生產力仍然局限在小範圍內,還沒有真正顛覆各行各業,但至少這個趨勢已經出現了,目前已是暗潮湧動。」
以下為部份交流內容:
第一財經:目前國內的大模型能否對標OpenAI的ChatGPT?
董道國:國內大模型的發展蒸蒸日上,但距離OpenAI釋出的GPT4等領先大模型,國內還有很長的路要走,還需要更加努力,特別是那種有資金、有實力的大廠,應該再沈下心來繼續努力,至少到目前為止這種差距還是比較大的。
第一財經:這個差距具體體現在哪裏?
董道國:這是綜合性的表現,大模型不僅僅是演算法,還要考慮訓練數據、算力以及工程化能力。如果僅僅聚焦於對話模型,國內大模型對中文對話的支持還是可以的,但如果把大模型作為AI Agent(人工智能體)的「大腦」作用去發揮的時候,我們的大模型在推理能力上距離ChatGPT還有蠻遠的距離,也就是說僅僅看對話模型其實表現也還可以,但是將AI作為一個生產力,國內大模型還有一定差距。
第一財經:作為AI Agent和作為對話的大模型,它們的主要區別是什麽?
董道國:基於大模型的對話套用是給普通人用的,面向C端,利用網頁的形式和大模型做一些對話溝通;AI Agent作為一種「大腦」,本質上我們不僅是用它裏邊的知識,更多地是用它的推理能力去做決策,呼叫工具和外部知識來完成復雜的任務。
第一財經:國內的大模型未來會成為一個超級 APP 嗎?
董道國:會有這樣一種趨勢。包括一些手機公司做AI終端的目的,就是希望手機繼續能夠承擔所有APP入口。國內包括百度、阿裏在發力的大模型,其實也是希望能夠承擔超級APP的那種角色。
我相信未來隨著AI的發展,手機所有APP的形式一定會發生根本性變化。目前APP的形式仍然偏規則式,並不人性化。規則式意味著沒有人機對話能力,我們只能根據APP設定的布局來使用,按相應的按鍵,得到APP的回應,這種模式是反人性的。人最希望直接表達自己的需求而得到滿足,而不是點來點去。比如我喊出蘋果手機的Siri,讓它給我定一個鬧鐘,它就會直接給我定好。未來隨著人工智能的發展,這種功能的適用範圍會更廣闊,使用起來也會更加便捷。
第一財經:目前各個領域,比如醫療、金融領域都在研發自己的垂域大模型,一些企業也會在一些開源大模型基礎之上,結合自己的行業經驗和數據積累,推出自己領域的大模型。這給我們一種感覺,大模型的技術門檻是不是沒有那麽高?
董道國:其實如果有私域的數據,並且數據質素比較高的話,基於現有的一些基座大模型去訓練自己的私域大模型,我認為技術上並不是很難。但是訓練之後的效果到底怎麽樣,其實還是要打一個問號,要去看具體的工程方法,訓練數據集如何構建需要一定的經驗積累。
我一直持有一個觀點,當一個企業或者一個行業真的去訓練自己的私域大模型的時候,還是需要綜合考慮一下,到底是要自己去微調一個大模型,還是用現有大模型去構建一個面向自己行業套用的智能體,要看哪一種方案更符合實際需求。現在很多人其實把RAG(Retrieval Augmented Generation,檢索增強生成)和訓練私域大模型混淆,我其實更傾向於用RAG 的模式去構建面向某個行業的套用場景。
第一財經:兩者的主要區別在哪裏?
董道國:微調大模型其實就是在改變大模型的參數,也就是把知識輸入到這個大模型裏面去。而RAG僅僅用的是大模型的推理能力,而知識源於企業內部自己的數據和知識庫。換句話說,第一種模式是把知識灌到大模型裏,這有一個缺點:大模型仍然有可能輸出它不確定的知識或不清楚的資訊,從而造成一些幻覺,導致內容真偽難辨。但是RAG模式通常沒使用大模型裏的知識,只用了大模型自然語言的理解和推理能力,知識透過檢索知識庫後送給大模型,讓它來根據限定的知識去生成。
第一財經:L0通用大模型和L1垂域大模型,它們目前的商業化行程如何?未來什麽樣的大模型更容易變現?
董道國:其實如果資金實力比較雄厚的話,那麽做L0通用大模型是一件值得去鼓勵的事情,但面臨套用落地的問題。通用大模型投入很高,變現路徑比較長,所以需要持續的資金支持。國家需要這樣的L0級大模型出現,所以我覺得這件事情需要由那些有實力的大廠去持續投入。而在一個行業套用裏,我認為垂域大模型可能更容易發揮實質性作用。
我倒不建議專門成立一家公司去做垂域大模型,而是應該由已經有明確套用場景的企業,去利用這種通用大模型來最佳化業務流程,能夠馬上發揮作用,這種情況更容易成功。如果一個創業團隊自己去想象一個行業場景,然後去訓練垂類大模型,再銷售出去,壓力會非常大。所以我一直覺得不應該鼓勵過多的創業公司投入到思考套用場景上,套用場景去找技術會比較好。