當前位置: 華文世界 > 財經

Kimi為宕機致歉!記者實測對比:看論文、研報、轉譯哪家強?

2024-03-24財經

誰是中國版ChatGPT的討論從未消失,在一眾「大哥」面前,一家創業公司被視為最有力的挑戰者,旗下名為「Kimi」的套用甚至成為了資本市場的新寵。

3月21日,人工智慧板塊持續上行,Kimi概念股集體高開,華策影視、掌閱科技、中廣天擇漲停,海天瑞聲、九安醫療、深信服等跟漲。截至發稿,Wind數據顯示,AIGC指數(8841660.W)漲1.59%。

站在Kimi背後的是一家叫做月之暗面的公司,該公司3月18日宣布,Kimi 智慧助手在長上下文視窗技術上再次取得突破,無失真上下文長度提升了一個數量級到200萬字。而在此前之前,GPT-4Turbo-128k公布的數位約10萬漢字,Claude3200k上下文約16萬漢字。

長上下文意味著什麽?實際能力如何?第一財經記者征求了業內人士的意見並實測了Kimi和通義千問等國產大模型產品。

Kimi為「宕機」致歉

21日下午,月之暗面旗下大模型套用kimi的APP和小程式均無法正常使用。此前,月之暗面釋出情況說明:從2024.3.209:30:00開始,觀測到Kimi的系統流量持續異常增高,流量增加的趨勢遠超對資源的預期規劃。這導致了從2024.3.2010:00:00開始,有較多的SaaS客戶持續的體驗到429:engine is overloaded的異常問題,並對此表示深表抱歉。

在一個Kimi團隊與使用者溝通的群裏,Kimi方面人員表示,「Kimi從昨天開始使用者量增速很快,工程師已經緊急擴容了幾次,還在實施更多應急措施。」Kimi存取量的激增讓這家公司的網路一度陷入癱瘓。

公開資料顯示,月之暗面由90後楊植麟創立,成立於2023年3月1日,目前已完成三筆融資。今年2月,該公司完成一筆大額融資,以15億美金投前估值完成超10億美元B輪,阿裏領投,礪思資本、小紅書跟投,投後估值約25億美元,是國內最主要的大模型獨角獸之一。

長文本無失真壓縮是上述公司瞄準的一個方向。據楊植麟介紹,長文本作為公司「登月」的第一步,是新的電腦記憶體,很本質,個人化並非透過微調實作,上下文定義了個人化過程。楊植麟還認為,大模型「馬拉松剛開始,接下來會有更多差異化」。

在20萬漢字的基礎上,Kimi又將上下文長度提升至200萬。關於長度提升後有何變化,21日,月之暗面相關負責人告訴第一財經記者,這會進一步幫助開啟對AI套用場景的想象力,包括完整程式碼庫分析理解、可自主幫人類完成多步驟復雜任務的智慧體Agent、不會遺忘關鍵資訊的終身助理、真正統一架構的多模態模型等。

「簡單來說,文本長度長就可以跟AI一直對話,AI不會‘遺忘’之前的對話內容,還能有比較好的理解。同時,一個計畫程式碼可達幾百萬行,如果大模型支持的文本長度不夠長,就沒法理解並輔助工作。」有IT人員向記者解釋。

就「長文本是否是未來競爭的一個差異化方向,抑或大模型廠商都在共同追逐的目標,長文本意味著什麽?」的問題,一名大廠大模型研究人員告訴記者,目前判斷一個大模型是否強大,還是基於指定評估數據集和使用者日常聊天體驗,但文本長度普遍有限,這限制了商業價值。在實際套用中,很多時候需要考慮的是需處理的巨大資訊量。如果大模型能解決長文本問題,潛在價值是巨大的,例如投餵財務數據輸出完整財報、投餵大量病例情況讓大模型幫助解決醫學問題。

「但值得註意的是,長文本擴充套件並不一定意味著實際效果足夠好,還需要有足夠理解能力以及對人類指令的遵循能力,文本之外,影像及視訊大模型有更多token需要處理,需要足夠長的上下文能力支持。除文本的長上下文外,要實作AGI(通用人工智慧)還需要有同時處理時空物多維度資訊的能力。」上述研究員說。

而對於目前「與哪些上市公司展開合作」的問題,月之暗面並沒有正面回復。該公司負責人對記者表示,其開放平台是面向所有開發者和企業使用者開放的,任何合規的開發者和企業都可以將 Kimi 智慧助手背後的同款大模型API接入到自己的產品或服務中,基於 Kimi 大模型卓越的長文本處理和指令遵循能力,升級或打造新的產品或服務。

國內大模型哪家強?

國內大模型發展至今,不少套用已經逐步走入C端,但國產大模型理解能力如何?能理解長文本並給出高品質回答嗎?第一財經記者今日實測了包括Kimi、智譜清言、通義千問等國內幾大主流大模型產品。

在評測後,記者發現,一些大模型還不支持長文本輸入或不支持較大的文件上傳,Kimi、通義千問在解讀財報、研報、論文方面的能力較好,但Kimi有時會因「高峰時段忙碌而暫不回復」,智譜清言則犯過將非上市公司列入股票行列的錯誤,文心一言對諸如選股、找最新報告的要求有時不直接回應且出現過核心資訊遺漏問題。

為測試對較長且較專業文本的理解和資訊提取能力,記者還實測了Kimi和其他國內大模型在提取論文和研報資訊的能力。

近日騰訊與清華大學、 香港科技大學聯合釋出了一個圖生視訊模型,記者將該模型相關英文論文交給Kimi和通義千問、文心一言、智譜清言和訊飛星火,要求分析核心內容和論文實作方法,Kimi和通義千問都給出詳細解答。其中,Kimi點明論文貢獻、相關模型的框架和實作的關鍵步驟,關鍵詞匯還附帶英文名詞標註,通義千問除了實作方法外,還解答了實驗方面研究者如何進行評估。此外,將論文發給訊飛星火app後,訊飛星火給出較短的文件摘要,但不如Kimi和通義千問詳細清晰,且訊飛星火對記者的提問表示「在文件中沒有找到與提問相關的內容」,訊飛星火網頁端對20M以上文件上傳則有限制。

此外,智譜清言限制上傳檔大小,記者希望上傳的論文超過10M限制,記者復制論文內容至對話方塊, 但很快也超過限制字數,無法發出文字與AI對話。文心一言同樣限制文件大小且限制對話方塊文字長度,導致無法對文件進行分析。

對於哪個國產大模型能讀懂研報並給出投資建議?記者將兩份不同券商釋出的關於人形機器人行業的研報交給Kimi、通義千問、訊飛星火、文心一言、智譜清言,其中一份長達50頁,記者要求大模型分析哪些機器人股票比較有潛力,並要求挑出兩只可考慮買的股票。

測試結果顯示,Kimi和訊飛星火均給出10家有潛力的個股並分析原因,記者追問「如果要挑兩只股票買,哪兩只比較好」,Kimi和訊飛星火給出了兩只個股並解釋原因,同時提醒股票投資風險或建議咨詢財務顧問意見。通義千問則按產業鏈不同環節分列20余只有較高投資潛力的個股並解釋原因,根據研報資料挑選出兩只股票,同樣給出投資風險提示並建議尋求專業投資顧問的意見。值得註意的是,通義千問和Kimi挑出的兩只股票中,有一只是相同的,Kimi和訊飛星火挑選出的兩只股票也有一只是相同的。

即便是給出了風險提示,但這樣的結果也讓部份券商分析師感到不安。「如果將概念股的資訊透過某些渠道加大投餵力度,這是否會引起搜尋結果的導向出現偏差,引發較高的投資風險,目前不得而知。」某分析師說。

從記者評測的結果看,智譜清言給出5只潛力比較大的個股中,其列出的公司中有一家並未上市。文心一言則表示,產業鏈一些環節的公司具有潛力,但沒有列出具體個股並逐個說明原因,且未直接回復「買哪兩只股票好」的問題,而是列出通用的選股策略。

在財報解讀方面,第一財經記者將B站2023年財報PDF文件(700kb)上傳至大模型對話視窗,並讓AI幫忙解讀財報的核心內容。隨後,Kimi分段給出了財務摘要數據和管理層評論,列出了凈營業額、廣告業務收入等主要財務數據;智譜給出了一段財務數據內容,且是原文繁體字,沒有轉成簡體中文,而其他家都給出簡體中文的回復;通義千問則分段給出了財務數據、業務數據、業務亮點與戰略執行、成本與開支控制等內容,從財報內容解讀的全面性和有用性方面來說,較為突出;文心一言給出了不同業務的營收數據,但核心資訊凈虧損有遺漏,其他大模型沒有出現這個遺漏。

記者隨後試圖同時上傳2022年與2023年兩份年報讓AI對比,智譜清言、文心一言僅支持上傳一份文件,Kimi試了幾次都顯示輸出失敗,表示「和Kimi聊的人太多,Kimi有點累了」;通義千問給出了兩份年報的核心變化,提到了關鍵的日活破億、毛利率提升、成本結構改善以及虧損收窄,表現較為突出。

轉譯場景上,記者以前段時間Sora的技術文件為例,其中涉及不少技術名詞,讓AI進行轉譯。記者先直接發送網頁連結讓AI轉譯,Kimi仍然輸出失敗,通義千問和文心一言不支持網頁轉譯;智譜支持網頁轉譯,但只轉譯了部份核心內容,記者進一步要求其轉譯全文,AI回復稱「由於版權和長度限制,無法提供完整的轉譯」。

隨後記者復制了部份關鍵內容考驗各家大模型的轉譯能力,從輸出結果看,對於大模型訓練(training)、擴散模型(diffusionmodels)、LLM、patch這些專業名詞,相比轉譯器來說,各個大模型都表現得更加智慧,但從閱讀流暢性、智慧分段這種指標來說,智譜略微勝出。

如果要輔助工作學習,這些大模型能起到多大作用?為測試這個能力,記者向Kimi、通義千問、文心一言提出「查詢關於深度學習的最新研究報告」的要求,結果顯示,Kimi能給出較好回復,但還不是非常「新」,其他兩個模型未給出對應內容。Kimi提供的具體報告內容連結中,三篇中的兩篇來自2022年——一則來自知乎,一則來自新華網,還有另一篇來自【電腦套用研究】,未有明確時間標註。此外,通義千問回復「作為離線助手,無法即時查詢互聯網上的最新深度學習研究報告」,並給出幾項學術期刊、學術會議推薦。文心一言直接從引言、演算法創新、模型最佳化、套用場景拓展、市場與產業分析等角度給出歸納,但並不符合「最新研報」的訴求。

涉及日常生活的建議,Kimi、通義千問和文心一言給出答案的差距則不太大。記者提出「一位30歲、60KG、165cm的女性想要達到健身目標,該如何進行鍛煉計劃制定」的問題,Kimi、通義千問、文心一言均從目標、鍛煉計劃、飲食、休息等幾方面給出全方位建議。

能趕上GPT4嗎?

Kimi「引爆」概念股,一定程度上顯現資本市場對國產大模型能力躍進的期待。此外,近期國產大模型密集釋出,廠商最頻繁使用的一個詞匯是「逼近」,強調自身技術實力「逼近GPT4」。資本市場聞風而動、大模型密集釋出背後,國產大模型能趕上GPT4了嗎?

一位人工智慧行業人士對記者表示,由於目前大模型企業之間並無明確的對比計畫,大多透過打榜的形式來佐證自身實力,因此無法透過嚴謹的第三方數據來區分廠商之間的技術差距,但可以明確的是,自從OpenAI將GPT4閉源後,國內廠商與其差距目前仍較大。

多名業內人士也提到過國內廠商與矽谷廠商之間的差距。智象未來創始人兼CEO、加拿大工程院外籍院士梅濤表示,從通用大模型的角度來說,中國廠商與矽谷廠商之間的差距有被拉大的風險,原因包括人才密度問題、資源問題。2023年,中國初創公司做通用大模型的公司用一千張卡的資源來對標ChatGPT3.5,今年則用萬張卡級別資源對標ChatGPT4,而矽谷目前已經考慮十萬級甚至百萬級的卡做對應的事情,對比缺口比較大。

相對來講,梅濤認為多模態生成式領域的對比差距相對好一點,不論是Sora還是Midjourney,這個領域生成式模型基本上參數都在百億級規模左右,該規模搭配千張卡左右的資源,創業公司透過早期融資還是可以實作的。對這個差距沒有那麽大的領域,梅濤認為中國企業應優先考慮的是如何在產業化方面做好產品叠代以及商業化,這些角度中國廠商很有可能比國外企業更快更敏捷。

瀾舟科技創始人兼CEO周明認為,目前中國在大模型演算法上原創技術能力並不差,但在頂層設計上可以跟美國學習,或比美國做得更好。周明認為國內缺乏一個國家機制或聯盟體來定義一個大模型未來發展的必要趨勢。這個問題一旦解決,中國的人才便可以快速攻關,雖然算力不足的問題尚存在,但透過演算法或套用發力,可以彌補算力不足的問題。

此外,周明認為國內大模型企業要跟國家的發展大趨勢配合,而非一味去與美國相關企業看齊。他稱,很多國內大模型企業只知與美國企業看齊,亦步亦趨,後者提出一個技術點,國內便想要跟上或進行改良。更合適的動作應從綜合趨勢上進行推進,最為重要的是套用驅動。中國大模型相關企業與美國企業相比,在套用場景等方面雖然沒有大的優勢,但也不占劣勢。如果在場景和套用角度去反向驅動各個套用,推動國家經濟和生產力各個方面提升,中國基礎創新能力有可能在下一輪 AI 創新中引領國際潮流。

談及近一年人工智慧領域的動態,中關村數智人工智慧產業聯盟理事長,原小米集團副總裁崔寶秋是興奮的,他稱,看好大數據和深度學習帶來新一代AI技術的快速發展。從時間線上來看,一年多前大模型的釋出仍存在「胡說八道」的問題,讓人感覺很不靠譜。但在2023年,崔寶秋去到美國,接觸大模型最新技術前沿,令他感受到新的時代到來,雖然大模型技術目前是美國引領,但中國企業也在快速跟進。

梅濤近一年也在頻繁往返中國與美國矽谷,在他看來,最新的體感就是中美生態確實不太一樣,例如在投融資方面,不管是融資還是公司的估值方面,中美企業之間的差距是巨大的,特別是融資的環境,希望今年有所改變。

另外,雖說2024年是創新元年,但就遍地是黃金嗎?周明認為不是,國內大模型領域很多地方都沒有開拓出來,比如大模型如何結合最後一公裏、大模型的商業模式是什麽、如何加強交付能力、提高產品的標準化,這些才剛剛開始,方興未艾。