10月25日,汽車行業AI產品和業務解決方案提供商易慧智能釋出了汽車行業首個大模型評測集。此次評測旨在全面評估市面上主流大模型在汽車行業中的實際套用效果,特別關註於汽車行銷場景的套用評估。在此基礎上,易慧智能重磅推出創新的模型路由技術方案——基於多模型的YiAgent群體智能技術框架。
此技術框架不僅融合了大模型路由技術,還巧妙地將大模型庫、汽車行業大模型評測集以及YiAgent群體智能平台這三個子系統整合為一個有機整體。在這個創新的技術框架中,大模型路由依據汽車大模型評測的效果,為YiAgent群體智能平台中的每個Agent所負責的技能挑選出效果最佳的模型,從而實作技能的最佳化配置和效用最大化。技術框架為企業客戶提供以多個大模型驅動的群體智能協同工作平台,全力支持企業客戶實作智能化轉型。
應對復雜場景需求多模型成為主流
鑒於當下大模型使用場景的多樣性、任務復雜度的提升,以及垂直行業專業需求的特殊性,當前無論是通用大模型還是垂直大模型,均展現出各自的局限性和不足。以內容創作為例,此領域涵蓋了寫作、轉譯、知識問答、程式碼輔助、邏輯推理等多個維度,對於不同任務,各大模型表現差異較大,沒有一家大模型可在所有任務上均達到最優。這一現狀也為混合大模型的興起提供了契機。
混合大模型旨在將市場中的主流大模型進行有機融合,針對特定任務需求,精準呼叫表現最優的模型,以實作精準解決特定問題的目標。透過「專業分工,協同合作」的理念,混合大模型致力於最大化各項任務的處理效能。近期,360公司推出的AI助手便是一個典型例證,該助手整合了國內15家頂尖大模型,構建了CoE專家網絡模型,透過規模化的資源整合,集中各模型之優勢,最終實作了更為卓越的效能與效率提升。
在汽車行業的行銷領域,其核心能力與任務包含行業知識的深度掌握、內容創作的精準定位、高效對話能力的展現、數據分析的精細處理以及智能體支持的全面覆蓋等多個維度。這些綜合且復雜的需求,對大模型的能力提出了極高的挑戰,也使得當前市場上的單一模型在應對此類復雜場景與任務時顯得力不從心。而混合大模型方案的提出,則為解決這一系列難題提供了最為最佳化和可行的思路。
汽車行銷領域首個垂直行業大模型評測集
據悉,易慧智能作為聚焦汽車行業的AI產品和業務解決方案提供商,擁有海量的使用者行為數據和車型數據,在汽車行業數碼行銷、數碼化轉型方面擁有企業級的深刻理解和豐富的套用場景。易慧智能此次重磅釋出汽車行業大模型評測集,並同步推出模型路由技術方案——基於多模型的YiAgent群體智能技術框架,這一舉措深刻體現了其在技術創新領域的領導地位,同時也是其堅定踐行以客戶為中心發展理念的重要裏程碑。
作為汽車行銷領域首個大模型評測集,易慧智能選擇了國內外具有代表性的8個閉源/開源的模型以及自研大模型共9個模型。針對汽車行銷領域行業知識、內容創作、對話能力、數據分析、智能體支持等5大核心能力和超過20個子任務能力進行嚴格評測,並對每個評測類別制定獨特的評測標準和方法,原創評測題目超過1000道。
在評測過程中,易慧智能重點關註大模型在汽車行銷關鍵領域的表現。首先,就行業知識而言,評估大模型對汽車行業基礎知識的掌握深度,以及其在看車、選車、購車、使用等全流程中展現出的專業知識理解和套用能力。
其次,在內容創作方面,考察大模型汽車領域內容生成能力,特別是其在撰寫汽車種草圖文、汽車短影片文案等方面的表現。特別關註大模型在行銷內容創作上的多樣性、準確性,以及其對字數、人設、場景等維度要求的指令遵循能力。
此外,在對話能力方面,測試大模型與使用者進行自然語言交流的能力,包括但不限於語意理解、情緒辨識、實體辨識、對話推理等對話場景中的核心能力。
同時,數據分析也是評測的重要環節。易慧智能將考察大模型在處理和分析汽車行業相關數據方面的能力,如銷售數據、使用者行為數據等,並評估其在行銷決策支持中的套用效果。具體的能力維度包括text2sql、指標計算、圖表推薦以及報告撰寫等。
最後,在智能體支持方面,易慧智能將評估大模型在支持智能體進行任務規劃、流程推理、工具檢索、參數理解以及工具使用等方面的能力,特別是在行銷自動化和個人化推薦中的實際套用效果。
經過此次嚴格評測,結果顯示無一模型能在所有能力上均獨占鰲頭。其中,在汽車知識與對話能力方面,自主研發的大模型以82.17與80.62的高分脫穎而出。值得註意的是,盡管GPT-4o仍保持其領先地位,但國內大模型正迅速追趕,差距正在逐步縮小。
此次評測結果還反映出通用大模型在應對具有行業特性的任務時顯現出明顯的局限性。無論其源自國內還是國外,相較於專為汽車領域客製的自研大模型,在汽車領域知識掌握及對話互動能力的核心指標上,得分普遍較低。這一發現也揭示出當前通用大模型在處理行業專屬任務時遭遇的瓶頸,尤其是在需要深度專業知識與精準上下文解析的場景中更為凸顯。相比之下,行業大模型由於擁有針對性的訓練與最佳化,能夠更為精準地捕捉並處理特定領域的專業知識與對話內容。因此,針對專業性要求極高的行業套用場景而言,選擇垂直大模型無疑是更為合理且高效的決策。
易慧智能CTO葉明登表示,易慧智能此次評測的目標是提供一個全面、客觀的評估框架,幫助汽車行業的決策者和技術開發者更好地理解和利用大模型技術,以實作汽車行業的智能化升級。特別是在行銷場景下,我們的評測集能夠更準確地衡量大模型在實際商業環境中的表現和價值。
易慧智能CTO葉明登
在此次評測中表現優異的自研大模型負責人同時也是易車副總裁張磊表示,自研大模型基於易車在汽車行業多年的深耕與積累,結合最新的人工智能技術,5T+的PT數據,百萬級SFT(Supervised Fine-Tuning,監督微調)數據,DPO(Direct Preference Optimization,是一種用於對齊大模型與人類偏好的方法)安全對齊,實作了大模型在汽車領域的全場景支持、汽車知識及時更新、效果領跑,全面賦能汽車行業。此次評測結果的釋出不僅揭示了大模型在汽車行業的套用現狀,還突顯了行業大模型相較於通用大模型在指導技術決策、推動技術創新、促進行業客製化、提升套用效能、推動私有化部署等垂直領域的獨特優勢。
易車副總裁張磊
模型路由技術方案切實提升群體智能協同平台工作效能
此次易慧智能重磅推出的模型路由技術方案——基於多模型的YiAgent群體智能技術框架,作為一個有機系統,包含了大模型庫、汽車行業大模型評測集、YiAgent群體智能平台三個子系統。
子系統一——大模型庫優選當前主流大模型,透過定期的換入換出機制,緊跟當前業內最新技術動態進展。大模型庫中的所有大模型都會在大模型路由中進行註冊,並統一存取介面。為了滿足不同企業客戶對不同場景的業務需要,該大模型庫中覆蓋了各個維度的大模型,包括國內模型和國外模型、營運模式和開源模型、Saas模型和可私有化部署模型、通用模型和行業模型,未來將持續增加更多的優秀模型補充進來。
考慮到各個外部模型的持續更新叠代,易慧智能會定期對大模型進行升級叠代,尤其是微調參數量較小的模型,不斷提升模型效果,降低成本。
子系統二——汽車行業大模型評測集覆蓋行業最全面的基礎知識和行銷核心場景能力,可根據真實套用場景即時更新評測數據,定期重新整理大模型庫中所有模型的評測結果,並將評測結果同步至大模型路由。
子系統三——YiAgent群體智能平台可以根據任務動態選擇某個單體agent(數碼員工)或者群體agent(數碼員工團隊)。Agent路由作為使用者需求的總入口,執行「CEO」的角色。
單體agent(數碼員工)完成任務所需不同技能可透過大模型路由動態選擇最優大模型。
在YiAgent群體智能平台子系統中,大模型路由模組承擔著為各項技能精準匹配最優大模型的重任。鑒於各大模型在專長領域上的差異,系統依據評測結果,為每項技能分配表現最為出色的模型。在模型表現相近的情況下,系統秉持成本效益原則,優先選用參數量較少的模型,以實作資源的最佳化配置。此外,大模型路由模組還兼具負載均衡功能,當某一模型負載達到閾值時,能夠智能地將部份請求引導至次優模型,確保服務的連續性與穩定性,有效規避服務中斷的風險。
據業內資深人士分析指出,模型路由技術方案的釋出,為大模型在汽車行銷領域的實際部署與效能提升,開辟了一條極具價值的參考途徑。此舉不僅強化了易慧智能在汽車AI產品與服務解決方案領域的優勢地位,更將實質性地推動AI技術在汽車行業內的創新步伐,實作行業整體效率與客戶競爭力的顯著提升。