當前位置: 華文世界 > 科技

「香洲好嘢」深譯科技:讓AI連結全世界,實作「溝通無障礙」

2024-07-18科技
AI人工智慧作為一門前沿科技,正在改變著我們的生活和社會。在對未來的設想中,人們身邊將有一個「AI助理」,這個「AI助理」將有能力理解人類的需求和習慣,並創造新一代的人機互動模式。隨著技術的進步,人工智慧當前已經發展到以語音、圖片、視訊為主的感知智慧與以語言、語意為主的認知智慧融合的多模態大模型階段,但從技術層面來看,認知智慧的研發無疑是一條更難的「道路」——認知智慧需要「思考」相應的語意內容。
位於珠海市香洲區的深譯資訊科技(珠海)有限公司(以下簡稱「深譯科技」)選擇了這條更難的「道路」,圍繞人工智慧的三大要素(數據、演算法、算力),布局構建了獨有的AI(人工智慧)產業小生態和核心壁壘。
打破行業數據壁壘
在群雄逐鹿的人工智慧企業中想要突圍並不容易,在深譯科技涉足的多模態多語言賽道更為困難,原因無他,數據獲取的渠道和方式極不便利,而進入到比較精細化的行業大模型中的業務數據對流通性、準確率和版權的要求都極為苛刻。
「憑借多年來在多模態大資料探勘、自然語言處理、人工智慧等前沿技術上的先發優勢,深譯科技搶占資源、沈澱積累了大量稀缺的多模態多語言AI大數據資源集。」深譯科技董事長林余楚介紹,公司的多模態數據集無論是存量還是品質,在國內外均處於行業第一梯隊,特別在葡語系、共建「一帶一路」的小語種國家及大語種專業領域中,深譯科技已躋身國內大模型數據服務商前列,並致力於成為全球前列的AIGC(生成式人工智慧)多語言多模態數據提供商。
在林余楚看來,當前行業數據基本上不在互聯網上公開,相關數據獲取渠道極為有限,「我們產品的誕生,主要服務於AI或是AI企業,這些企業的模型想要變成智慧甚至專家級的,背後最核心的就是數據支撐。簡而言之,這就類似於以數據驅動的人工智慧‘訓練師’,打破了不同行業之間的壁壘。」
「目前,我們依托深譯科技自研的深數引擎(Deep Data Engine)技術矩陣產品,形成了高品質的多語言多模態多領域的數據集,分類主要是多模態多語言的預訓練數據(包括微調以及精調數據)和多工多領域的行業數據,這些數據特點是品質優、規模大、稀缺性、品類全,是我們構建AI產業生態最為關鍵因素。」林余楚說。
打造世界級的AI大模型
「大模型是第四代革命的代表,假若大模型沒有套用,產生不了生產力,就很難形成產業經濟效益。」林余楚說,「一方面,我們擇優賽道,發揮優勢自研建設多語言內容行業大模型。」林余楚介紹道,深譯科技依托澳門大學中葡自然語言處理實驗室等粵港澳大灣區高校資源,大力拓展電腦視覺、自然語言處理、大數據學科等產學研計畫。
當前,深譯科技團隊憑借20多年來對模型訓練調參的經驗和積累,自研多語言內容行業大模型底座——深意大模型,基於自研2B-13B參數集的行業大模型能力構建百行千業多模態智慧體套用,為各類場景實作更專業、更安全、更具有價效比的具身智慧服務。
「另一方面,我們依托粵港澳大灣區國家樞紐節點正積極推進構建智慧算力saas服務和智慧算力中心、建設新型智算套用服務平台,聯動AI產業小生態,打造‘大數據、大模型、大算力、大套用’四位一體的基礎性設施,為深譯科技AI小生態閉環夯實基礎。」林余楚說。
在語言大模型中,除了主流的中文、英文還包括了方言以及一些小語種,其中又細分為不同領域,這些數據從哪裏獲取?演算法如何?「我們在數據增強技術上實作了眾多突破,才形成現在的格局。」林余楚說,「我們模擬這些行業真實的專業行為,生成數據,再進行標註,然後進行模型的二次訓練,這樣,形成真正的智慧行業專家級模型。」
政府扶持助力企業快速發展
作為一家人工智慧創新企業,深譯科技對於技術研發的重視不言而喻。「這個行業對於人才和科研的要求是特別高的。」林余楚說,「我們在自己核心技術的基礎上,透過產學研合作不斷增強技術人才的配置以及永續的科研力量,把賽道中的成本大幅降低。」當前,深譯科技研發人員占比高達80%,每年的研發投入占總營收近50%,擁有發明專利12項,有付出就會有報酬,深譯科技源源不斷的研發投入,不僅讓公司在激烈的市場環境中保持創新能力和有利競爭,還實作了非常可觀的經濟效益——近三年來,公司總產值每年均實作翻番。
深譯科技的快速發展,背後是香洲區的大力扶持,「我們正是在香洲區政府的支持下一步步發展起來的」。
在林余楚看來,香洲區產業配套成熟,適合企業成長,而另一方面,深譯科技有著多語言及國際化的背景,而香洲區毗鄰港澳,可以更快走向全球。「在這個過程中,無論是人才政策的支持還是科技研發的投入,香洲區政府都給予很大的幫扶,解決了我們的後顧之憂,讓我們這種初創企業可以安心創業。」
「深譯科技的願景是讓‘AI連結全世界’,打造世界級的AI大模型,打造葡語系國家全球領先、‘一帶一路’共建國家小語種國內領先、大語種專業領域套用領先的行業地位,形成多語言多模態的AI 產品體系。接下來,我們將夯實第一階段取得的數據以及行業模型基礎,基於產業生態大力拓展業務,預計在2025年公司營收將達到一億元,希望三年內能夠成為人工智慧領域的獨角獸公司,力爭成為全球前列的多語言多模態AI數據提供商和基於多語言內容行業大模型的多模態智慧體套用平台。」林余楚說。
文 | 鄭達