AI内容真假难辨？Google全新水印技术或可解决

2024-10-25科技

这款名为 SynthID 的工具，是生成式 AI 输出水印工具家族的一部分。去年，公司推出了用于图像的水印，随后又推出了用于 AI 生成视频的水印。今年 5 月，Google 宣布在其 Gemini 应用和在线聊天机器人中使用 SynthID，并在 Hugging Face 这一开放的 AI 数据集和模型库中免费提供。水印已成为帮助人们识别 AI 生成内容的重要工具，这有助于防范如虚假信息等潜在危害。

「现在，其他生成式 AI 开发者可以使用这一技术，帮助他们检测文本输出是否来自自己的大语言模型，这将使更多开发者能够更负责任地构建 AI。」Google DeepMind 研究副总裁 Pushmeet Kohli 说。

SynthID 通过在 AI 模型生成文本时，直接在文本中加入一个不可见的水印。

大型语言模型通过将语言分解为「token」，然后预测哪个 token 最有可能接在前一个 token 之后来运作。一个 token 可以是单个字符、单词或短语的一部分，每个 token 都会得到一个百分比分数，表示其成为句子中下一个词的可能性。百分比越高，模型使用该 token 的可能性就越大。

「SynthID 通过在生成的那一刻引入额外的信息来改变 token 生成的概率。」Kohli 解释道。

要检测水印并确定文本是否由 AI 工具生成，SynthID 通过比较带水印和不带水印文本中单词的预期概率分数来实现。

Google DeepMind 发现，使用 SynthID 水印并未影响生成文本的质量、准确性、创造力或生成速度。这一结论来自 SynthID 在 Gemini 产品中的大规模实地测试，数百万人使用了带有水印的文本。Gemini 允许用户对 AI 模型的回复进行评分，选择「赞」或「踩」。

Kohli 和他的团队分析了约 2000 万条带水印和不带水印的聊天机器人回复的评分。他们发现，用户并未察觉两者在质量和实用性上有何差别。此次实验的结果详见今天发表在 Nature 上的论文。目前，SynthID 仅适用于 Google 的模型生成的内容，但开源这一工具的目的是希望扩大其兼容工具的范围。

然而，SynthID 也存在一些局限性。水印在应对文本裁剪、轻度编辑或重写时具有一定的抗干扰能力，但当 AI 生成的文本被重写或翻译成另一种语言时，效果不如预期。在回答诸如「法国的首都是哪里」这种事实性问题时，水印的可靠性也较低。原因在于，在不改变事实的前提下，调整句子中下一个可能单词的概率空间更为有限。

「在生成式 AI 文本中实现可靠且不可察觉的水印是极具挑战性的，尤其是在输出结果接近确定性的场景中，例如事实性问题或代码生成任务。」马里兰大学副教授 Soheil Feizi 说，他曾研究过 AI 水印的脆弱性。

Feizi 表示，Google DeepMind 决定开源其水印方法，是对 AI 社区的一个积极信号。「这让社区可以测试这些检测器，并在不同的环境中评估其鲁棒性，从而更好地理解这些技术的局限性。」他补充道。

Hugging Face 的机器学习工程师 João Gante 指出，开源工具还有另一个好处，开源意味着任何人都可以使用代码，并无附加限制地将水印整合到他们的模型中。这将提升水印的隐私性，因为只有拥有者知道其加密秘密。

「随着可访问性的提升和功能的验证，我希望水印技术能成为标准，这有助于我们检测语言模型的恶意使用。」Gante 说道。

但水印并非万能的解决方案，Hugging Face 全球政策负责人 Irene Solaiman 指出。

「水印是保障模型安全的一部分，但整个生态系统还需要许多互补的安全措施。类似地，即便是人工生成的内容，事实核查的效果也因情境而异。」她表示。

原文链接：