當前位置: 華文世界 > 科技

一文看遍AI行業大模型

2024-07-19科技

騰訊研究院大模型研究課題組

前言

通用大模型技術快速發展,但很多傳統行業推進得並不快。對企業而言,大模型套用需要綜合考慮專業性、數據安全、持續叠代和綜合成本等多種因素。針對這些現實情況,騰訊集團提出重點發展行業大模型的理念。本文基於一線大量實踐反饋,做出系統歸納總結,呈現行業大模型發展真實情況,厘清關鍵爭議和困惑問題。真正解決使用者需求、距離場景和數據更近的企業,將擁有大模型的未來。

行業大模型彌合技術與需求差距

1. 大模型引發智能革命

2022年11月30日,OpenAI釋出大語言模型 (LLM,Large Language Model) ChatGPT,其使用者數迅速增長,成為史上發展最快的套用。ChatGPT的爆火揭開了人工智能 (AI,Artificial Intelligence) 大模型時代的序幕,也預示著AI邁向通用人工智能 (AGI, Artificial General Intelligence) 的新階段。目前業界對大模型沒有形成明確統一的定義,狹義上可指大語言模型,基於Transformer技術框架;廣義上包含了語言、聲音、影像、影片等多模態大模型,技術框架也涵蓋穩定擴散模型 (Stable Diffusion) 等。

在大模型出現之前,人工智能通常需要針對特定任務和場景設計專門的演算法模型,執行的也是訓練數據範圍內的單一任務。大模型的突破,關鍵在於展現出了類人的通用智能「湧現」能力,能夠學習多個領域知識、處理多種任務,因此也被稱為通用大模型。大模型具備諸多特點。

第一,參數規模大。 大模型參數規模遠大於傳統深度學習模型,呈現規模定律 (Scaling Law) 特征,即模型效能與模型規模、數據集大小和訓練用的計算量之間存在冪律關系,效能隨三個因素的指數增加而提高,通俗而言就是大力出奇跡。不過「大」並沒有絕對標準。傳統模型參數量通常在數萬至數億之間,大模型的參數量則至少在億級,並已發展到過萬億級。

第二,泛化能力強。 大模型能夠有效處理多種未見過的數據或新任務。基於註意力機制,透過在大規模、多樣化的無標註數據集上進行預訓練,大模型能夠學習掌握豐富的通用知識和方法,從而在廣泛的場景和任務中使用。大模型不需要或者僅需少量特定任務的數據樣本,即可顯著提高在新任務上的表現能力。

第三,支持多模態。 大模型可以實作多種模態數據的高效處理。傳統深度學習模型大多只能處理單一數據類別 (文本、語音或影像) ,大模型則可以透過擴充套件編/解碼器、交叉註意力、遷移學習等方式,實作跨模態數據的關聯理解、檢索和生成。多模態大模型 (LMMs,Large Multimodal Models) 能夠提供更加全面的認知能力和豐富的互動體驗,拓寬AI處理復雜任務的套用範圍,成為業界探索邁向通用人工智能的重要路徑之一。

2. 行業大模型是AI+落地最後一公裏

規模定律驅動通用大模型效能不斷提升,同時也產生了「不可能三角」問題:專業性、泛化性和經濟性三方面很難兼得。

第一,專業性指大模型處理特定領域問題或任務的準確性與效率。 專業性要求越高,越需要針對特定領域數據進行訓練,可能造成模型過擬合而降低泛化能力。此外,增加的數據收集和訓練也會增加成本、降低經濟性。

第二,泛化性指大模型處理訓練數據集之外新樣本的表現能力。 大模型泛化性要求越高,越需要多樣化的大規模訓練數據集、模型參數量也越多,這意味著模型訓練和使用成本的增加、經濟性降低,同時可能降低模型對特定問題處理的專業能力。

第三,經濟性指大模型訓練和套用的投入產出比。 大模型經濟性要求越高,越需要消耗更少的算力資源與成本,滿足效能需要,然而降低資源消耗基本上需要采用更小的模型或更少的參數,這又會降低模型的效能表現。通用大模型以發展通識能力為主要目標,更側重泛化性,在專業性和經濟性方面很難充分滿足具體行業的特定需求,存在「有幻覺、成本高」等情況。

行業機構采用大模型還有兩個關鍵考量因素:競爭和安全。將數據轉化為競爭力是核心驅動。為有效提升競爭力,機構會盡力尋找效能最佳的模型,並利用行業專業數據或私有數據的獨特資源,對模型進行客製調整和最佳化。目前GPT-4等市場頭部通用大模型多為閉源,透過網頁、APP套用服務大眾使用者,或以API標準化呼叫的方式服務開發者,可客製化調整的空間較小。第二,保障安全可控是底線要求。大模型不僅涉及機構私有數據的呼叫,還會與機構業務、流程結合,這使得大模型使用越深、越需要重視安全可控。通用大模型通常基於公有雲提供服務,會造成機構對私有數據、敏感數據安全的擔憂。

通用大模型與行業/機構具體需求間存在差距,行業大模型以其諸多優勢 (見圖1) ,成為彌合差距的必然產物,有效支持各行各業加速落地大模型套用。

一是高性價比,行業大模型能在較小參數量模型基礎上,透過相對低成本地再訓練或精調,達到較好效能效果。十億〜百億級參數量的行業大模型是目前主流選擇,相比通用大模型動輒千億級以上的參數量能明顯節省開發成本。

二是可專業客製,行業大模型可基於開源模型開發,能對模型結構、參數等按需調整,更好地適配個人化套用需要。透過模型即服務 (MaaS,Model as a Service,見圖2) 方式,機構可以從平台對接的多種模型中快速選擇合適產品,包括廠商已開發的行業大模型初始版本。

三是數據安全可控,行業大模型可采用私有化部署方式,使機構能更放心地利用私有數據提升套用效果,減少數據安全疑慮。

3. 行業大模型長在通用大模型上

行業大模型是與通用大模型相對的概念。通用大模型側重發展通識能力,行業大模型則側重發展專業能力。從行業實踐看,行業大模型不僅指開發一個行業專用的模型本身,更多還包括基於通用大模型調整和開發的行業套用。因此,廣義上行業大模型可以歸納為:利用大模型技術,針對特定數據和任務進行訓練或最佳化,形成具備專用知識與能力的大模型及套用。此外,國際上更多用垂直模型 (Vertical Model) 或垂直人工智能 (Vertical AI) 來表示,國內還有垂類模型、領域模型、專屬模型等稱謂。

行業大模型大多在通用大模型基礎上構建。通用大模型具備豐富的知識和強大的泛化能力,不僅能為行業大模型提供廣泛的知識基礎並提升互動體驗,還能顯著節約從頭訓練模型所需的大量數據和算力資源,大幅提升行業大模型開發及套用的效率和效果。透過對通用大模型進行提示工程、檢索增強生成、精調、繼續預訓練/後訓練等方式,模型能夠更好地處理特定數據或任務,從而生成行業大模型版本 (模型有變) 或具備行業大模型的功能 (模型不變) 。今天市場上的很多行業大模型,如金融、法律、教育、傳媒、文旅等,大多是在Llama、SD、GLM、Baichuan等國內外主流開源大模型基礎上構建 (見圖3)

行業大模型的本質是解決方案,通常需要針對特定數據和任務進行客製開發或調整,面向B端客戶,每個客戶都有獨特的業務、數據、流程等,需要用大模型解決的具體問題也存在個人化需求。因此,廠商提供的行業大模型不僅是產品和工具,更需要有客製服務與支持,甚至需要客戶參與共建。可以這樣理解,行業大模型中的產品通常是「毛坯房」,客戶需要根據自身用途進行「裝修」才能滿足需要。

大模型行業套用進展與評估

不同行業大模型技術落地進度各異,這種差異主要由大模型技術的成熟度、行業數碼化水平、投入產出比、行業對專業性和準確性的要求以及安全可控等因素決定。

1. 行業大模型套用階段劃分

參考埃弗雷特·羅傑斯【創新的擴散】一書對創新階段的界定,本文從技術發展和市場滲透兩個維度構建檢視,結合一線調研數據,綜合評估、定位各行業在2024年年初的位置,以便對不同行業采納大模型的行程做比較。結果顯示,目前行業在大模型技術的采用上主要集中在兩個階段,即探索孵化期與試驗加速期。部份行業已經步入采納成長期,尚未有行業達到落地成熟期

階段一為探索孵化期,以農業和能源等行業為代表。 行業中嘗試采用大模型的機構數量較少,但仍有一些頭部或創新意識強的機構積極探索。機構推進市場套用的關鍵在於證明技術的可行性和實用性,並能解決行業特有挑戰,面臨較高風險和不確定性,同時有機會引領市場。

階段二為試驗加速期,以教育、金融、遊戲與出行為代表。 行業普遍具備相對良好的數據基礎,探索套用大模型的機構數量快速增長,開始在特定套用場景產生經濟價值。機構關註技術如何解決實際問題,如金融量化策略的勝率、遊戲設計的降本增效等。成功案例是此階段的風向標,實用效益能夠吸引更多參與者加入。

階段三為采納成長期,以廣告與軟件行業為代表。 行業中的主流機構已普遍采納並使用大模型。由於與大模型基礎能力高度匹配,目前在廣告以及軟件行業 (包括各類互聯網套用) ,文案生成、文生圖、程式碼生成與數據分析等能力,已經在不少機構被大量使用。繼續擴大市場的關鍵在於進一步最佳化技術套用,提升使用者體驗和效率,同時降低成本。

階段四為落地成熟期,目前還沒有行業達成。 此階段意味著大模型技術套用基本成熟,絕大多數機構已在主要生產營運場景中使用,並與供應商之間建立了穩定的商業合作關系。目前大模型技術還遠未到成熟階段,行業套用的成熟需要更長時間。大模型的穩定性、可解釋性、外掛程式呼叫的可靠性等,都是行業套用步入成熟期的必要前提。

2. 行業大模型套用場景分析

調研發現,多個行業都已經開始探索大模型技術在各生產環節的套用落地,具體涉及研發/設計、生產/制造、市場/銷售、客戶服務、經營管理等環節。

各行業橫向對比, 本文從大模型套用進展快慢的角度進一步闡述具體套用場景。數碼原生行業是大模型套用的先行者。互聯網、遊戲等數碼原生行業,由於數碼化程度高、數據積累豐富、技術接受能力強,成為大模型落地較快的行業。這些行業的大模型套用場景廣泛,覆蓋了行銷、客服、內容生成等諸多環節,目前已積累了相對豐富和成熟的實踐。生產性服務業成為傳統行業結合大模型的示範區。金融、廣告、軟件等生產性服務業,因其產品和業務的非實物內容,在客戶服務和數據處理等方面有強需求,比較適配當前大模型技術能力,推進較快。

例如,金融機構利用大模型增強服務的廣度和精度,實作行銷、風控、投研等環節的賦能提效。這些行業的大模型實踐正加速走向成熟,並向場景縱深探索。重資產行業在大模型套用上處於局部探索階段。能源/電力、建築、制造業等行業,大模型套用推進相對較慢,主要受限於線下生產流程的復雜性和高度的專業化,這些行業的核心環節在生產營運,需要在通用大模型能力基礎上,進一步深度整合行業專業知識,同時避免幻覺問題,確保準確性和安全,還需更長期、漸進的過程。如制造業需要將大模型與工業互聯網、數碼孿生等基礎設施及專業數據深度結合,在工藝最佳化、質素管控、器材維護等核心領域發揮更大價值。整體而言,影響行業套用大模型速度的兩個關鍵因素是:數據可得性,高質素數據越容易獲取、進展越快;需求適配度,行業核心業務與大模型創意生成和互動能力越匹配、進展越快。

深入行業縱向環節看, 當前大模型技術滲透呈現出類似產業微笑曲線的特征,即在產業鏈高附加價值的兩端 (研發/設計和行銷/服務) ,大模型套用落地較快,而在低附加價值中部 (生產、組裝等) ,大模型套用行程較慢。究其原因,大模型技術所帶來的智力即服務的範式變化,特別適配微笑曲線兩端、知識密集型和服務密集型領域,對人的能力提升乃至部份替代效果顯著,可以認為掀起了腦力勞動大規模工業化、自動化的新篇章。

行銷/服務環節進展最快,跨行業通用性強是重要原因。 在產業鏈下遊的行銷與服務環節,基於機構自有知識庫的內容生成與智能對話,能使行銷和服務活動效率和體驗得到顯著提升,成為各行業嘗試套用大模型的先行領域。行銷和服務大多直接面向C端使用者,跨行業通用性強,能夠充分利用通用大模型的基礎能力和通用的行銷、服務知識,快速開發和偵錯出適配機構需要的套用。

研發/設計環節結合最深,高質素專業數據集決定行程。 在產業鏈上遊的設計研發環節,大模型對海量知識的高效學習、推理和生成能力,不僅能夠大幅提升文案、影像、程式碼等內容創意的生成效率,還適用於生物、環境、材料等涉及海量科研數據處理的科學計算領域。是否具備高質素的專業數據集,決定了不同行業、領域在這個環節行程的快慢。文案、影像、程式碼等擁有大量基於互聯網的開放、開源數據集,因此這些領域進展最快;有高質素、大規模開放數據集的科研領域進展也較快,如DeepMind開發的AlphaFold,能夠僅憑胺基酸預測蛋白質3D結構,大幅提升了蛋白質研究行程,其成功背後有賴於采用了開放數據集進行預訓練;工業研發/設計方面,芯片、汽車等領域也已出現用大模型輔助設計生成的套用,但這些領域多涉及強商業競爭,高質素的開放數據集很難獲取,需要更多投入,實用進展相對慢。

生產/制造環節進展相對慢,對人的輔助增強是目前主要結合點。 處於產業鏈中間的生產制造環節,往往涉及對機器等各類實體的操作,需要人與器材、工藝、系統的適配,環節多、流程復雜,對安全性、準確性和穩定性要求高。目前大模型的能力主要體現在自然語言和影像處理上,並不直接適用於生產制造環節復雜的數值計算、時序分析和即時決策等場景,往往需要針對性采集專業數據集進行專門的模型訓練和開發,因此結合進展相對慢。從目前行業實踐看,大模型在生產制造領域的套用側重在對人的輔助增強,以Copilot (機器人助手) 為主要形態,結合工業軟件在工業仿真、生產監控、故障排查等環節輔助人提升處理能力。

雖然不同行業與大模型結合的進展和側重點存在差異,但對大模型的優勢和發展方向存在共識與需求,總體有三個方面。

一是內容生成與創意設計。 主要運用大模型展現出的生成能力,包括文本生成、影像生成及程式碼、表格等泛文本生成能力,結合特定行業、場景數據,支持內容生成和創意設計。

二是資訊提煉與專業輔助。 主要運用大模型的摘要、規劃等能力,針對特定行業、場景數據,輔助人進行專業知識的提煉、分析和加工。結合檢索增強生成等技術,許多行業透過對話機器人實作此類助手型套用,覆蓋研發設計、生產制造、行銷服務等多環節。

三是任務排程與智能互動。 行業對大模型的需求,更多還體現對其代理能力 (Agent) 的期待,希望大模型能與其他套用,甚至與現實世界的機器和器材等連通,在更廣泛的範圍協助進行任務排程和問題解決。這涉及即時數據處理、自動化控制、環境感知和決策支持等,對模型的響應速度、準確度和自適應力提出了更高要求,需要大模型外掛程式生態、大模型與小模型的結合等順利發展。

3. 行業大模型評估標準

隨著大模型的發展及在行業中套用的推進,越來越多行業機構開始關心行業大模型做成什麽樣才算成功。該問題也是當前業界普遍面臨的挑戰。大模型整體還處於發展早期階段,一方面技術快速叠代蘊含了巨大創新價值,另一方面在規模定律驅動下算力等投入還呈現指數級增長態勢。許多行業機構幾乎不知道從何入手,更不用說有充分的套用經驗來衡量成功,然而如果缺乏衡量標準和辦法,又很難充分投入技術創新和套用,容易陷入決策困境。

基於對多方的實踐調研,結合國際前沿相關探索,本文嘗試總結構建出當前衡量行業大模型套用成功的2-3-1原則:避免兩個誤區,評估三類價值,構建一個模式。

避免兩個誤區。 一是將技術指標當作證明大模型成功的標準。一些機構會將註意力集中在技術效能上,透過呈現指標數值的增長反映大模型的成功,但這些指標無法直接反映大模型價值,我們應該關註業務指標,例如使用者數、使用量、收入等,可將技術指標和業務指標建立聯系,用業務發展牽引技術開發和最佳化。

二是過度看重投資收益中的短期產出部份而忽視長期投入。行業關註大模型實用性、強調投入產出比本身沒有問題,但如果將大模型與成熟業務類似,要求明確的投入產出,甚至短期內實作正向盈利,並不利於大模型套用的發展。大模型還在快速叠代階段,有大量不確定性,合理方式是將大模型作為研發或孵化專案,不強求短期財務指標絕對達成,轉而關註業務、技術等指標的相對提升。

評估三類價值。 一是降本提效。核心在於大模型能夠輔助增強人員能力,提升自動化水平進而簡化流程。

二是業務創新。 核心在於大模型的生成能力能夠擴大內容供給,與套用場景的結合還可能創造新功能或業務。三是體驗增強。隨著向多模態、具身智能方向發展,大模型可為使用者提供更加自然、豐富的自然語言互動體驗。

構建一個模式。 數據是大模型能夠執行並創造價值的核心能源。對具體的行業機構而言,透過大模型生成和擴充套件價值的能力,核心取決於如何充分利用自己特有的數據。在數據問題上往往存在一個誤區,即數據量越大越好。

實際上,相比規模,數據質素對於大模型的效能更為重要,尤其是對專業性和準確性要求高的行業大模型。行業大模型的構建,需要一開始就把高質素的數據環境納入其中,透過體系化的數據治理設計,優先開發數據管道,讓大模型能夠與套用相關的機構自有資料來源建立連線,以支持後續持續不斷獲得有效數據,形成數據飛輪。高質素的數據環境,不是將企業任意數據拿過來就可以,而是需要套用相關的、能夠提供上下文理解的數據,重點投資於持續標記、組織和監控這些數據,比如行業專家的問答內容。數據架構本身還需要涵蓋結構化和非結構化的資料來源,支持多樣化的數據處理。

行業大模型技術多維最佳化策略

行業大模型的構建和套用中,由於需求和目標不同,技術實作復雜性差異也較大。透過調研總結,目前機構在使用大模型適配行業套用過程中,從易到難主要有提示工程、檢索增強生成、精調、預訓練四類方式。企業通常不會只用一種方式,而會組合使用,以實作最佳效果。

1. 引導:提示工程

提示工程 (Prompt Engineering) 指透過針對性地設計提示詞 (Prompt) ,引導大模型產生特定套用場景所需的輸出。提示工程上手相對簡單,不需要批次采集與構建數據集,更不需要調整或訓練模型,很多企業剛接觸大模型時會采用這種方式探索套用。通用大模型的能力雖然強大,較少輸入也可以生成內容,但隨意輸入可能產生無效或錯誤輸出,透過系統設計提示詞,規範模型輸入輸出方式,企業能夠快速得到更準確和實用的結果。

提示工程成為持續最佳化大模型套用的基本方法。透過構建提示庫並不斷更新,企業大模型套用開發人員能夠在不同場景中重復使用這些提示詞,再將使用者的開放式輸入封裝到提示詞中傳給模型,使模型輸出更相關、更準確的內容,避免使用者反復試驗從而提升體驗。任務的復雜度決定了提示工程的技術方式選擇。簡單任務可以用零樣本提示、少樣本提示的方式,不提供或少量提供範例給模型,讓模型能夠快速輸出結果。復雜任務則大多需要拆解為若幹步驟、提供更多範例,采取思維鏈提示等方式,讓模型能夠逐步推理輸出更精準的結果。提示工程的效果高度依賴通用大模型本身的能力。如果通用大模型訓練時包含了行業套用相關的數據,提示工程就能有效引導模型輸出更符合行業需要的結果,但若通用大模型本身內含的行業套用數據較少,提示工程的作用就會比較有限。

2. 外掛:檢索增強生成

檢索增強生成 (RAG,Retrieval-Augmented Generation) 指在不改變大模型本身的基礎上,透過外掛知識庫等方式,為模型提供特定領域的數據資訊輸入,實作對該領域更準確的資訊檢索和生成。RAG能有效幫助企業快速利用大模型處理私有數據,已經成為企業部署行業大模型套用的主流選擇,特別適用於數據資源基礎較好的企業、需要準確參照特定領域知識的場景,如客服問答、內容查詢與推薦等。

主要優點有:提高模型套用的專業準確性,讓模型能基於特定數據生成內容、降低幻覺;滿足企業自有數據所有權保障的需要,模型本身只會尋找和呼叫外掛的數據,不會吸收數據並訓練成模型內含的知識;具備較高性價比,底層大模型本身不做調整,不用投入大量算力等資源做精調或預訓練,能夠更快速開發和部署套用。

RAG的能力核心是有效結合了檢索和生成兩種方法。基本思路是把私有數據進行切片,向量化後透過向量檢索進行召回,再作為上下文輸入到通用大模型,模型再進行分析和回答。

具體套用時,當使用者提出一個問題或請求,RAG首先檢索私有數據,找到與問題相關的資訊。這些資訊接著被整合到原始問題中,作為額外的上下文資訊和原始問題一起輸入大模型。大模型接到這個增強的提示後,將其與自己內部知識進行綜合,最後生成更準確的內容。向量化成為RAG提升私有數據呼叫效率的普遍手段。透過將各種數據統一轉化成向量,能更高效地處理各類非結構化數據,進行相似性搜尋,從而在大規模數據集中快速找到最相似向量,適合大模型檢索和呼叫各種數據的需要。

3. 最佳化:精調

精調 (FT,Fine-Tuning) 常稱為微調,是在已經預訓練好的大模型基礎上,基於特定數據集進一步調整部份參數,使模型能更好地適應業務場景,準確高效地完成特定任務,是目前較為常用的行業大模型構建方法。精調適用於特定領域對大模型有更高效能要求的場景。

在行業套用中,當通用大模型不能準確理解或生成專業內容時,可以透過精調的方式,提升大模型在理解行業特定術語和正確套用行業知識的能力,並確保大模型的輸出符合特定業務規則或邏輯。精調會將行業知識內化到大模型參數中。精調後的大模型不僅保有通用知識,還能較為準確地理解和使用行業知識,更好地適應行業內多樣化場景,提供更加貼合實際需求的解決方案。

精調是對大模型客製最佳化和成本投入的折中選擇。精調往往涉及大模型權重參數或模型結構的調整,並且需要多次叠代才能達到效能要求,因此相對提示工程、RAG等不改變模型本身的方式,會需要較長時間和較多計算資源。

當然,與從頭預訓練大模型相比,精調還是一種更為經濟高效的方法,因為通常只需要對模型做局部調整、所需訓練數據相對少。高質素數據集是決定精調後模型效能的關鍵。數據集需要與業務場景密切相關,並且數據標註要高度精準。高質素數據集既會來自企業內部數據提取也會來自外部數據的采集,均需進行專門數據標註處理。這些數據需要具備代表性、多樣性和準確性,並符合數據私密等法規要求。只有當足夠的高質素數據被用於訓練時,精調才能真正發揮作用。精調策略也直接影響著大模型最終的效能。

精調分為全量精調和局部精調。局部精調的方法更為高效,在實踐中也比全量精調使用更多,常見形式有:有監督精調 (SFT,Supervised Fine-Tuning) ,在特定任務的標註數據上調整模型;低秩調整 (LORA,Low-Rank Adaptation) ,透過低秩矩陣更新減少所需學習參數量;介面卡層 (Adapter Layers) 技術則在模型中加入小型網絡層,專註訓練特定層以適應新任務。精調策略的選擇可根據具體任務需求、數據的可用性以及計算資源的限制綜合考慮。

4. 原生:預訓練

透過提示詞工程、檢索增強生成、精調三種方式都無法達到需求標準時,還可以選擇預訓練 (Pre-Training) 方式,構建一個專門為特定行業客製的大模型。預訓練行業大模型適用於與現有大模型差異較大的場景,要求搜集並標註大量行業特定數據,涵蓋文本、影像、互動記錄,以及特殊格式數據 (如基因序列) ,在訓練過程上,模型通常采用從底層參數開始訓練,或者基於已經具備一定能力的通用模型進行後訓練 (Post-Training) ,使大模型更好地理解特定領域術語、知識和工作流程,提高大模型在行業套用中的效能和準確性,確保其在該領域的專業性和效率。

例如谷歌的蛋白質生成模型AlphaFold2,是特定於生物資訊學的大模型,其預訓練涉及了對大量實驗室測定的蛋白質結構數據的深入分析和學習,使模型能夠捕捉到蛋白質序列與其空間結構之間的復雜關系,從而精準地理解和預測蛋白質的復雜三維結構。

預訓練方式投入成本較大,當前較少采用,不僅需要大量計算資源和長期訓練過程,還需要行業專家密切協作和深度介入。此外,從頭預訓練還涉及復雜的數據處理和模型架構設計工作,以及在訓練過程中不斷調優和驗證。因此,只有少數企業和科研機構有能力采用這種高投入、高風險,而潛在回報同樣高的方式。

未來,隨著技術進步和成本降低,預訓練行業大模型可能增加。預訓練行業大模型的技術流程與通用大模型相似,但更註重行業特性。在數據集準備上,從一開始就會加入行業特性數據,在模型構建技術與流程上,和通用大模型預訓練類似,會涉及模型架構設計、預訓練任務挑選、大量數據處理、大規模無監督或自監督學習等。如使用自監督學習 (SSL,Self-Supervised Learning) 技術,透過從數據本身生成標簽學習數據內在結構和特征,無需人工標註數據,以及基於人類反饋的強化學習 (RLHF, Reinforcement Learning from Human Feedback) 技術,透過引入人類專家的主觀反饋引導模型學習過程,產生更高質素輸出。

關註 「騰訊研究院」 公眾號