当前位置: 华文世界 > 科技

「香洲好嘢」深译科技:让AI链接全世界,实现「沟通无障碍」

2024-07-18科技
AI人工智能作为一门前沿科技,正在改变着我们的生活和社会。在对未来的设想中,人们身边将有一个「AI助理」,这个「AI助理」将有能力理解人类的需求和习惯,并创造新一代的人机交互模式。随着技术的进步,人工智能当前已经发展到以语音、图片、视频为主的感知智能与以语言、语义为主的认知智能融合的多模态大模型阶段,但从技术层面来看,认知智能的研发无疑是一条更难的「道路」——认知智能需要「思考」相应的语义内容。
位于珠海市香洲区的深译信息科技(珠海)有限公司(以下简称「深译科技」)选择了这条更难的「道路」,围绕人工智能的三大要素(数据、算法、算力),布局构建了独有的AI(人工智能)产业小生态和核心壁垒。
打破行业数据壁垒
在群雄逐鹿的人工智能企业中想要突围并不容易,在深译科技涉足的多模态多语言赛道更为困难,原因无他,数据获取的渠道和方式极不便利,而进入到比较精细化的行业大模型中的业务数据对流通性、准确率和版权的要求都极为苛刻。
「凭借多年来在多模态大数据挖掘、自然语言处理、人工智能等前沿技术上的先发优势,深译科技抢占资源、沉淀积累了大量稀缺的多模态多语言AI大数据资源集。」深译科技董事长林余楚介绍,公司的多模态数据集无论是存量还是质量,在国内外均处于行业第一梯队,特别在葡语系、共建「一带一路」的小语种国家及大语种专业领域中,深译科技已跻身国内大模型数据服务商前列,并致力于成为全球前列的AIGC(生成式人工智能)多语言多模态数据提供商。
在林余楚看来,当前行业数据基本上不在互联网上公开,相关数据获取渠道极为有限,「我们产品的诞生,主要服务于AI或是AI企业,这些企业的模型想要变成智能甚至专家级的,背后最核心的就是数据支撑。简而言之,这就类似于以数据驱动的人工智能‘训练师’,打破了不同行业之间的壁垒。」
「目前,我们依托深译科技自研的深数引擎(Deep Data Engine)技术矩阵产品,形成了高质量的多语言多模态多领域的数据集,分类主要是多模态多语言的预训练数据(包括微调以及精调数据)和多任务多领域的行业数据,这些数据特点是质量优、规模大、稀缺性、品类全,是我们构建AI产业生态最为关键因素。」林余楚说。
打造世界级的AI大模型
「大模型是第四代革命的代表,假若大模型没有应用,产生不了生产力,就很难形成产业经济效益。」林余楚说,「一方面,我们择优赛道,发挥优势自研建设多语言内容行业大模型。」林余楚介绍道,深译科技依托澳门大学中葡自然语言处理实验室等粤港澳大湾区高校资源,大力拓展计算机视觉、自然语言处理、大数据学科等产学研项目。
当前,深译科技团队凭借20多年来对模型训练调参的经验和积累,自研多语言内容行业大模型底座——深意大模型,基于自研2B-13B参数集的行业大模型能力构建百行千业多模态智能体应用,为各类场景实现更专业、更安全、更具有性价比的具身智能服务。
「另一方面,我们依托粤港澳大湾区国家枢纽节点正积极推进构建智能算力saas服务和智能算力中心、建设新型智算应用服务平台,联动AI产业小生态,打造‘大数据、大模型、大算力、大应用’四位一体的基础性设施,为深译科技AI小生态闭环夯实基础。」林余楚说。
在语言大模型中,除了主流的中文、英文还包括了方言以及一些小语种,其中又细分为不同领域,这些数据从哪里获取?算法如何?「我们在数据增强技术上实现了众多突破,才形成现在的格局。」林余楚说,「我们模拟这些行业真实的专业行为,生成数据,再进行标注,然后进行模型的二次训练,这样,形成真正的智能行业专家级模型。」
政府扶持助力企业快速发展
作为一家人工智能创新企业,深译科技对于技术研发的重视不言而喻。「这个行业对于人才和科研的要求是特别高的。」林余楚说,「我们在自己核心技术的基础上,通过产学研合作不断增强技术人才的配置以及可持续的科研力量,把赛道中的成本大幅降低。」当前,深译科技研发人员占比高达80%,每年的研发投入占总营收近50%,拥有发明专利12项,有付出就会有回报,深译科技源源不断的研发投入,不仅让公司在激烈的市场环境中保持创新能力和竞争优势,还实现了非常可观的经济效益——近三年来,公司总产值每年均实现翻番。
深译科技的快速发展,背后是香洲区的大力扶持,「我们正是在香洲区政府的支持下一步步发展起来的」。
在林余楚看来,香洲区产业配套成熟,适合企业成长,而另一方面,深译科技有着多语言及国际化的背景,而香洲区毗邻港澳,可以更快走向全球。「在这个过程中,无论是人才政策的支持还是科技研发的投入,香洲区政府都给予很大的帮扶,解决了我们的后顾之忧,让我们这种初创企业可以安心创业。」
「深译科技的愿景是让‘AI链接全世界’,打造世界级的AI大模型,打造葡语系国家全球领先、‘一带一路’共建国家小语种国内领先、大语种专业领域应用领先的行业地位,形成多语言多模态的AI 产品体系。接下来,我们将夯实第一阶段取得的数据以及行业模型基础,基于产业生态大力拓展业务,预计在2025年公司营收将达到一亿元,希望三年内能够成为人工智能领域的独角兽公司,力争成为全球前列的多语言多模态AI数据提供商和基于多语言内容行业大模型的多模态智能体应用平台。」林余楚说。
文 | 郑达