多模态AI(Multi-modal AI)是指能够处理和理解多种不同类型数据(如文本、图像、声音、视频等)的人工智能系统。这种技术使AI系统能够从多个角度和来源接收信息,并将这些信息整合起来进行更准确的理解和决策。
尽管多模态AI尚处于初期阶段,但已有多个模型开始涌现。Google的 Gemini Ultra模型在多学科多模态理解和推理(MMMU)基准测试中超越了GPT-4,显示出多模态模型的潜力。
为了保持竞争力,更多的大型语言模型开发者将跟进开发多模态功能。此外,多模态AI预计将解锁新的商业机会,如Artera在医疗保健领域的应用、Google将Gemini集成到搜索中、Ghost Autonomy在自动驾驶领域的探索,以及Meta将其应用于消费设备如智能眼镜。
多模态被视为AIGC行业2024年重要趋势之一。
2024年第三季度,OpenAI发布了o1,微软Copilot应用也发布了重大升级,多模态大模型的应用能力及用户体验持续优化。预计2024年第四季度,国内外厂商将发布更加复杂的多模态大模型,实现文本、语音、图像以及音视频等多模态数据的复杂处理和交互。
多模态 AI 板块是人工智能领域的一个新兴板块,其发展前景广阔,吸引了众多投资者的关注。随着人工智能技术的不断进步,多模态 AI 技术的应用场景不断拓展,相关概念股也受到了市场的广泛关注。
量子位发布的【中国AIGC应用全景报告】显示,2024年中国AIGC(生成式人工智能)应用市场规模将达200亿元,2030年达万亿元规模,2024年到2028年的年平均复合增长率将超30%。
广联达
公司目前已经构建了建筑行业AI大模型层、工具平台层、产品应用层三层AI技术体系。 建筑行业 AI 大模型层是由建筑领域的专业数据经过有监督精调、专家反馈的强化学习的领域大语言模型与多模态大模型构成,具备建筑领域的专业性,能够在建筑设计、交易与成本、施工、运维等建筑全领域有更高质量的专业内容输出,目标成为广大建筑从业人员的 AI助手,服务 500 余项建筑细分专业。
润和软件
公司推出了以GPT作为基础架构的NLP大模型技术和Diffusion架构技术的多模态大模型技术为核心算法能力的新一代AI中枢平台,可以对接各类大模型。公司也同步推出了四款行业应用内测产品,致力于应用最新的AI技术,为不同行业提供智能化解决方案,以AI助力行业数智化升级。
值得买
值得买科技正在开展多模态的工作,具体包括「图生图」和「文生图」模型,短视频脚本的生成,短视频的自动生成,以及直播数字人等。在应用层面,值得买科技则主要围绕内容识别和生成、智能的用户画像和推荐、智能的营销策略三个方向开展研究,并在文、图、短视频、直播等领域不断推进产品开发,相应的应用也正在陆续推出。
云从科技
公司在技术研究方面一直保持较大投入,在视觉、语音、NLP等方向上都在实践类似于ChatGPT的「预训练模型+反馈调优」的技术路线,通过自研的视觉大模型和NLP大模型,大幅提高了算法的生产效率,也进一步提升了公司核心算法的效果。
中文在线
公司发布「中文逍遥大模型。基于创作者的想法灵感,「中文逍遥」大模型大幅提升创作者的效率,可实现一键生成万字,一张图写出一部小说,一次读懂100万字小说。其中一张图写出一部小说即可根据图片内容撰写优质小说,展现出多模态能力,同时还为创作者提供「插画师」、「体系设定」、「文学评论」、「通识问答」等功能服务。
拓尔思
公司数字经济研究院及相关研发团队已经完成康养大模型第一版本的训练,加入了情感支持、主动问答以及多模态的能力,正在与虚拟人进行整合。公司将利用自研互联网大数据资讯平台,对世界杯相关的热点和话题进行大数据分析和研判,通过AIGC的内容自动创作和虚拟数字人进行联合,开展「大数据看世界杯」的虚拟数字人系列服务。