开栏语:【AIGC行业周报】梳理AIGC行业一周内发生的重要动态,产品发布和业内大咖的最新观点。
图片来源:每经制图
一、市场企业动态
1、英伟达全面开源GPU内核驱动
英伟达官宣全面开源GPU内核驱动,两年前已开始相关举措,此次开源部分驱动代码仍在主线内核之外。
新产品和旗舰平台支持开源GPU内核模块,旧版GPU不支持,开源可让开发者改进驱动程序并增加功能。
网友认为英伟达开源有多种动因,包括应对内核修改、被合作伙伴敦促等,其真正在意的是增长的市场。
2、AI教母李飞飞创业打造空间智能独角兽
李飞飞创办的World Labs短短3个多月成为估值10亿美元的AI独角兽,并获1亿投资。
World Labs瞄准空间智能理念,旨在教导算法具备常识,克服技术局限性。
李飞飞在计算机视觉领域成果斐然,其理念注重将AI训练得以人为本。
3、硅谷大厂被曝用YouTube视频训练AI引争议
Proof News调查发现Anthropic、英伟达、苹果等硅谷巨头使用YouTube视频字幕训练AI,创作者对此毫不知情。
YouTube数据被视为「金矿」,但AI公司使用这些数据引发了版权和合理使用等问题,许多创作者对未来感到迷茫。
EleutherAI创建的YouTube字幕数据集引发争议,谷歌表示采取行动防止未经授权的数据抓取行为。
二、产品技术动态
1、OpenAI发布GPT-4o mini,引发大模型价格战
OpenAI深夜发布GPT-4o mini,性能更强、更便宜,GPT-3.5退场。
GPT-4o mini在各方面表现出色,性价比极高,将扩展AI应用范围。
GPT-4o mini的作者包括清华同济校友,其推出为开发者构建应用带来便利。
2、谷歌Gemini升级可在Android设备锁定状态下回答提问
谷歌对Gemini进行功能升级,使其能在Android设备锁定状态下回答各种提问。
此前Gemini功能局限,提问某些问题需解锁手机,现在新增了免提体验功能。
用户偏好设置页面新增「Gemini在锁屏状态」选项,该功能刚推出不久。
3、Mistral AI发布数学推理和代码生成大模型
Mistral AI发布了专注于数学推理的7B大模型Mathstral,能解决高级数学问题。
同时发布的Codestral Mamba模型使用Mamba2架构,用于代码生成,在基准测试中表现优异。
两个模型均遵循Apache 2.0 license开源协议,模型权重可在HuggingFace上获取。
4、安卓版Claude发布
Anthropic发布安卓版Claude应用,功能强大,轻量且反响不错。
Claude安卓版具有多语言处理、图像分析等功能,旨在扩大用户群,挑战OpenAI。
未来人工智能助手在移动设备上的竞争将更激烈,关键在于技术创新和消费者信任的平衡。
5、北大发布Prompt自动增强系统PAS
北大发布Prompt自动增强系统PAS,可自动增强Prompt,提升大模型性能,超越SOTA。
PAS通过数据收集、生成和微调等步骤实现,能集成到不同LLMs中,且在实验中表现优异。
PAS减少了数据消耗,具有高效性和灵活性,人工评估也显示其在多个场景中优于基线模型。
6、快手开源LivePortrait可控人像视频生成框架
快手开源LivePortrait,能将驱动视频的表情、姿态迁移到人像视频上,在全网快速「走红」。
LivePortrait基于隐式关键点框架,采用高质量训练数据和混合训练策略,模型训练分为两阶段。
LivePortrait已在快手诸多业务落地,并将探索多模态驱动的人像视频生成,持续为用户创造价值。
7、OpenAI的「草莓」计划与AGI进展
OpenAI被曝出新项目「草莓」,能提前计划、自主浏览网页和进行深度研究,推理能力显著提高,疑似已达AGI L2级别。
「草莓」包括「后训练」等特殊方法,OpenAI希望其能显著提高AI模型的推理能力,并具备执行长时间任务等能力。
OpenAI最近展示了GPT-4o等模型的新演示,若加上「草莓」的推理能力,离AGI的实现或将更近。
三、前沿观点
1、专访「生成式人工智能之父」Schmidhuber:关于人工智能的历史、现状与未来
被誉为「生成式人工智能之父」的Schmidhuber认为人工智能的开端早于1956年,他在1990 - 1991年的研究成果为当今生成式AI奠定基础。
Schmidhuber认为「深度学习三巨头」未恰当引用他人成果,违反学术道德,应被剥夺奖项,他还对AI学界和业界的现状发表了看法。
Schmidhuber认为未来将出现自我复制、自我改进的机器文明,同时强调了研究过往论文对年轻科学家的重要性。
来源:每经科技提供
每日经济新闻