華東師範大學電腦學院副研究員董道國：大模型正在成為生產力，「場景找技術」更易成功

2024-03-27科技

自2022年11月底openAI首次公測ChatGPT以來，人工智能（AI）迎來新一波浪潮，AI產業飛速發展。

「AI在這段時間的發展可以用‘波瀾壯闊’來形容。在此前的很長一段時間裏，人們其實對AI持一種保留甚至懷疑的態度，直到ChatGPT釋出後，人們才發現人工智能真的能夠成為一種生產力。」華東師範大學電腦學院副研究員、前華為榮耀Magic手機首席架構師董道國近日對第一財經表示，「這種生產力仍然局限在小範圍內，還沒有真正顛覆各行各業，但至少這個趨勢已經出現了，目前已是暗潮湧動。」

以下為部份交流內容：

第一財經：目前國內的大模型能否對標OpenAI的ChatGPT？

董道國：國內大模型的發展蒸蒸日上，但距離OpenAI釋出的GPT4等領先大模型，國內還有很長的路要走，還需要更加努力，特別是那種有資金、有實力的大廠，應該再沈下心來繼續努力，至少到目前為止這種差距還是比較大的。

第一財經：這個差距具體體現在哪裏？

董道國：這是綜合性的表現，大模型不僅僅是演算法，還要考慮訓練數據、算力以及工程化能力。如果僅僅聚焦於對話模型，國內大模型對中文對話的支持還是可以的，但如果把大模型作為AI Agent（人工智能體）的「大腦」作用去發揮的時候，我們的大模型在推理能力上距離ChatGPT還有蠻遠的距離，也就是說僅僅看對話模型其實表現也還可以，但是將AI作為一個生產力，國內大模型還有一定差距。

第一財經：作為AI Agent和作為對話的大模型，它們的主要區別是什麽？

董道國：基於大模型的對話套用是給普通人用的，面向C端，利用網頁的形式和大模型做一些對話溝通；AI Agent作為一種「大腦」，本質上我們不僅是用它裏邊的知識，更多地是用它的推理能力去做決策，呼叫工具和外部知識來完成復雜的任務。

第一財經：國內的大模型未來會成為一個超級 APP 嗎？

董道國：會有這樣一種趨勢。包括一些手機公司做AI終端的目的，就是希望手機繼續能夠承擔所有APP入口。國內包括百度、阿裏在發力的大模型，其實也是希望能夠承擔超級APP的那種角色。

我相信未來隨著AI的發展，手機所有APP的形式一定會發生根本性變化。目前APP的形式仍然偏規則式，並不人性化。規則式意味著沒有人機對話能力，我們只能根據APP設定的布局來使用，按相應的按鍵，得到APP的回應，這種模式是反人性的。人最希望直接表達自己的需求而得到滿足，而不是點來點去。比如我喊出蘋果手機的Siri，讓它給我定一個鬧鐘，它就會直接給我定好。未來隨著人工智能的發展，這種功能的適用範圍會更廣闊，使用起來也會更加便捷。

第一財經：目前各個領域，比如醫療、金融領域都在研發自己的垂域大模型，一些企業也會在一些開源大模型基礎之上，結合自己的行業經驗和數據積累，推出自己領域的大模型。這給我們一種感覺，大模型的技術門檻是不是沒有那麽高？

董道國：其實如果有私域的數據，並且數據質素比較高的話，基於現有的一些基座大模型去訓練自己的私域大模型，我認為技術上並不是很難。但是訓練之後的效果到底怎麽樣，其實還是要打一個問號，要去看具體的工程方法，訓練數據集如何構建需要一定的經驗積累。

我一直持有一個觀點，當一個企業或者一個行業真的去訓練自己的私域大模型的時候，還是需要綜合考慮一下，到底是要自己去微調一個大模型，還是用現有大模型去構建一個面向自己行業套用的智能體，要看哪一種方案更符合實際需求。現在很多人其實把RAG（Retrieval Augmented Generation，檢索增強生成）和訓練私域大模型混淆，我其實更傾向於用RAG 的模式去構建面向某個行業的套用場景。

第一財經：兩者的主要區別在哪裏？

董道國：微調大模型其實就是在改變大模型的參數，也就是把知識輸入到這個大模型裏面去。而RAG僅僅用的是大模型的推理能力，而知識源於企業內部自己的數據和知識庫。換句話說，第一種模式是把知識灌到大模型裏，這有一個缺點：大模型仍然有可能輸出它不確定的知識或不清楚的資訊，從而造成一些幻覺，導致內容真偽難辨。但是RAG模式通常沒使用大模型裏的知識，只用了大模型自然語言的理解和推理能力，知識透過檢索知識庫後送給大模型，讓它來根據限定的知識去生成。

第一財經：L0通用大模型和L1垂域大模型，它們目前的商業化行程如何？未來什麽樣的大模型更容易變現？

董道國：其實如果資金實力比較雄厚的話，那麽做L0通用大模型是一件值得去鼓勵的事情，但面臨套用落地的問題。通用大模型投入很高，變現路徑比較長，所以需要持續的資金支持。國家需要這樣的L0級大模型出現，所以我覺得這件事情需要由那些有實力的大廠去持續投入。而在一個行業套用裏，我認為垂域大模型可能更容易發揮實質性作用。

我倒不建議專門成立一家公司去做垂域大模型，而是應該由已經有明確套用場景的企業，去利用這種通用大模型來最佳化業務流程，能夠馬上發揮作用，這種情況更容易成功。如果一個創業團隊自己去想象一個行業場景，然後去訓練垂類大模型，再銷售出去，壓力會非常大。所以我一直覺得不應該鼓勵過多的創業公司投入到思考套用場景上，套用場景去找技術會比較好。