当前位置: 华文世界 > 科技

与算力同为AI「卖铲人」!AI语料公司将受益于大模型迭代升级!

2024-03-27科技

来源:私募排排网

2023年以来,人工智能行业发生了质的改变,AI成为了人类第4次产业革命,已经成为共识。AI正在改变着我们的生产生活,由于AI依然处于发展初期,巨大的发展空间,给产业链上下游公司都带来了较大的「跃升」机会。如AI算力龙头英伟达在一年多的时间里股价翻了7倍,总市值接近苹果公司。

AI产业链上游为算力、语料,中游为AI大模型,下游为AIGC等AI应用。在发展初期,由于大模型需要不断地经过大量训练,实现迭代升级,因此,在产业早期,作为行业「卖铲人」往往是最先受益的,主要包括AI算力和AI语料。

正是基于以上逻辑,AI产业链「卖铲人」诞生了诸多的牛股,如AI算力方向的高新发展、鸿博股份、工业富联、中际旭创等等;AI语料方面的中国科传、华策影视、中文在线等等。

AI语料公司多数来自文化传媒行业,相比算力,他们在AI产业链中不仅仅充当「卖铲人」,不少还是AI应用的主体。 不少公司在AI产业链中,既扮演着大模型的上游供应商,也同时是下游应用商,如影视公司既提供AI语料,也利用AI技术进行创作,可以实现降本增效。

AI语料的质量直接影响到AI模型的性能!

AI语料就是人工智能系统所需的各种类型的数据资料,这些数据资料可以是文字、图片、语音、视频等多种形式。它们为AI模型提供了学习和推理的基础,使模型能够模拟人类的思考和行为

AI语料的组成丰富多样,其中最常见的是文本数据。这些文本数据可以来源于书籍、文章、论坛帖子、社交媒体内容等,它们为AI模型提供了丰富的语言信息和知识。此外,图片、语音、视频等多媒体数据也是AI语料的重要组成部分。这些多媒体数据为AI模型提供了更加直观、生动的学习材料,有助于模型更好地理解和处理复杂的信息。

AI语料在AI应用中发挥着至关重要的作用。 以自然语言处理为例,AI模型需要学习大量的文本数据,才能理解人类语言的含义和规则,从而实现自动翻译、文本摘要、对话生成等功能。在语音识别和语音助手领域,AI模型需要分析大量的语音数据,以识别不同的声音和语调,从而实现准确的语音识别和自然的语音交互。

AI语料的质量直接影响到AI模型的性能,因此,构建高质量、多样化的语料库对于AI的发展至关重要

国产大模型加速迭代升级,AI语料公司有望受益!

近期,国内AI大模型相继取得突破。 3月18日,月之暗面宣布Kimi智能助手启动200万字无损上下文内测,Kimi智能助手凭借突出的长文本无损处理能力,获得了良好的用户口碑和用户量的快速增长。七麦数据显示Kimi智能助手在iPhone效率类免费榜排名从1月14日的第436名提升至3月24日的第1名。

3月22日,阿里通义千问宣布向所有人免费开放1000万字的长文档处理功能,科研、法律、教育等领域的专业人士,都可通过通义千问网站和APP快速研读科研论文、解读法律条文、分析考试成绩等。

3月22日据【科创板日报】报道,百度文心一言下个月将进行版本升级,届时将开放长文本能力,文字范围在200万-500万。

3月23日,国内初创大模型公司阶跃星辰正式发布Step系列通用大模型(包括Step-2万亿参数MoE语言大模型的预览版)。

3月23日,360智脑官方发布消息称,360智脑正内测500万字长文本处理功能,该功能也即将入驻360AI浏览器。

随着Kimi等国产上下文长文本大模型快速破圈,大语言模型的涌现能力更是让AIGC应用体验得到大幅提升,有望加速催动国内大模型厂商进行产品迭代发布。 大模型的进化依赖于大量多样化的训练数据持续投喂,将拉动对AI语料的需求。

此外,3月20日,法国竞争管理局裁定对谷歌罚款2.5亿欧元,主因谷歌未经通知使用了法国媒体出版商和新闻机构的内容训练聊天机器人,违反欧盟知识产权规则。 随着大模型发展优化,语料的价值有望放大。

笔者根据行业研究报告、上市公司资讯与公告等内容梳理发现,A股中有多家公司属于AI语料概念股。其中, 截至2月27日收盘,华策影视、掌阅科技、中广天择等多家公司股价在今年来已经大涨30%以上。

如在AI预料方面,华策影视是国内影视制作龙头企业,影视剧版权数量超5万小时,构建了中国最大的影视素材运营平台。

风险揭示: 本文所涉及的内容不保证数据完整性与准确性,分析结论仅供参考,所涉及品种均不构成实际投资操作建议。股市有风险,投资需谨慎。

版权声明: 未经许可,任何个人或机构不得进行任何形式的修改或将其用于商业用途。转载、引用、翻译、二次创作(包括但不限于以影音等其他形式展现作品内容)或以任何商业目的进行使用的,必须取得我司许可并注明作品来源为私募排排网,同时载明内容域名出处。