「AIGC 日报」2024.10.6

2024-10-06科技

让我们看看今天人工智能领域和AI应用有什么新的发展新闻呢？
配图均为我采用AI绘画生成的原创作品.

1.Claude AI 被曝正研发新功能，突破 20 万 tokens 文件处理上限
报道称 Anthropic 公司扩展了 Claude 功能，支持用户处理上下文窗口超过 20 万 tokens 的文件。
如果 Claude 能够高效地查询这些参考文件，可能会大大增强其在编码和其他需要处理大量数据的应用中的实用性。
来源：testingcatalog
2.氛围感拉满：微软新专利探索 Copilot AI 应用，匹配视频等生成音乐
报道称微软公司获得了一项新的专利，构想 Copilot 在未来能辅助用户创建和视频、文本、PowerPoint 等匹配的音乐或者背景音乐。
微软该专利名为【Artificial intelligence model for composing audio scores】，主要探讨了基于输入内容，来创建音乐的方法。
该专利主要概述了以下步骤：
收集数据：收集大量的训练数据，这些数据包括许多包含视频和音频组件的视听数据集。
分析提取：分析数据集并提取不同类型的特征。例如文本视频中的颜色、形状、运动和场景等等。
关联：Copilot 会分析这些特征并寻找它们之间的相关性。例如，某些场景（如日落）通常伴随着特定类型的音乐（如平静、舒缓的旋律）。
Copilot 将通过这些特性进行训练，并利用关联系统，生成与新视频的视觉和文本特征相匹配的适当音频评分。
来源：Windows Report

3.数学教授和GPT o1 mini的「智力对决」 AI43秒完成人类数月难题
在宾夕法尼亚大学，有位数学教授 Robert Ghrist 正在与一款名为 GPT-o1-mini 的 AI 模型展开一场有趣的「智力对决」。
Ghrist 曾尝试使用多个知名的 AI 模型，包括 GPT-4、Claude-3.5和 Gemini-1.5-Pro。这些模型虽然能做出一些假设并提供证据，但常常因一些微妙的错误而「翻车」，这让 Ghrist 感到颇为挫败。
最终，他与 OpenAI 的 GPT-o1-mini 模型携手，取得了突破。这个模型不仅分析了一个有缺陷的证明，找出了错误，还在短短43秒内生成了一个「全新且巧妙的正确证明」，其优雅程度竟超过了人类的版本。
尽管获得了成功，Ghrist 也坦承，使用 AI 的过程并不一定比全靠自己来得更快。
不过，事情并非总是一帆风顺。就在论文发表后不久，另一位数学家 Sridhar Ramesh 在社交媒体上指出，其实这个证明可以通过 Birkhoff 的一个定理轻松完成，这让 Ghrist 颇感意外。
他幽默地承认道:「人类获胜了……」
来源：AIBASE

4.苹果 Depth Pro AI 模型掀起 AR 变革：零样本学习，单张 2D 图片 0.3 秒内变高清 3D
报道称苹果 AI 科研团队发布了名为 Depth Pro 的全新 AI 模型，不需要传统相机数据预测，能够在几分之一秒内从单张 2D 图像生成详细的 3D 深度图。
该论文标题为【Depth Pro: Sharp Monocular Metric Depth in Less Than a Second】，是单目深度估计（Monocular Depth Estimation）领域的一次重大突破，整个过程仅使用一幅图像来推断深度信息。
根据论文介绍，该模型由 Aleksei Bochkovskii 和 Vladlen Koltun 团队领导，声称 Depth Pro 是同类型总生成速度最快、最准确的系统之一。
Depth Pro 在传统 GPU 上可以在 0.3 秒内生成高分辨率深度图，创建的图片共有 225 万像素，具有卓越的清晰度，能够捕捉到头发和植物等其它方法常常忽略的细节。
Depth Pro 真正与众不同之处在于它能够估计相对深度和绝对深度，这一能力被称为「度量深度」（Metric depth）。
Depth Pro 不需要在特定领域数据集上进行广泛训练即可做出准确预测，这一特性被称为「零样本学习」，这意味着该模型可以提供真实的测量数据，对增强现实（AR）等应用至关重要。
Depth Pro 目前已经在 Github 平台上开源，并鼓励开发者在机器人技术、制造业和医疗保健等领域进一步探索 Depth Pro 的潜力。
来源：IT之家