NIST发布人工智能模型风险测试工具

2024-07-29科技

美国商务部负责为美国政府、公司和广大公众开发和测试技术的机构--国家标准与技术研究院（NIST）重新发布了一个测试平台，旨在测量恶意攻击--尤其是"毒害"人工智能模型训练数据的攻击--会如何降低人工智能系统的性能。

这个模块化、开源的网络工具于2022年首次发布，名为Dioptra（取自经典的天文和测量仪器），旨在帮助训练人工智能模型的公司和使用这些模型的人评估、分析和跟踪人工智能风险。NIST 表示，Dioptra 可用于对模型进行基准测试和研究，还可提供一个通用平台，让模型在"红队"环境中面临模拟威胁。

"测试对抗性攻击对机器学习模型的影响是 Dioptra 的目标之一，"NIST 在一份新闻稿中写道。"这个开源软件就像生成可供免费下载的孩子一样，可以帮助包括政府机构和中小型企业在内的社区进行评估，以评估人工智能开发者对其系统性能的宣称。"

NIST DioptraDiatropa的界面截图

Dioptra与NIST和NIST最近成立的人工智能安全研究所的文件同时亮相，这些文件提出了减轻人工智能某些危险的方法，比如人工智能如何被滥用来生成未经同意的色情内容。在此之前，英国人工智能安全研究所（U.K. AI Safety Institute）也推出了"检查"（Inspect）工具包，该工具包同样旨在评估模型的能力和整体模型的安全性。去年 11 月，英国在布莱切利公园举行的人工智能安全峰会上宣布，美国和英国将继续合作，共同开发先进的人工智能模型测试。

Dioptra 也是乔-拜登（Joe Biden）总统关于人工智能的行政命令（EO）的产物，该行政命令（除其他事项外）要求 NIST 协助进行人工智能系统测试。与此相关，该行政令还制定了人工智能安全和安保标准，包括要求开发模型的公司（如苹果公司）在向公众部署模型之前，必须通知联邦政府并分享所有安全测试的结果。

正如我们之前所写，人工智能基准很难制定--其中最重要的原因是，目前最复杂的人工智能模型都是黑盒子，其基础设施、训练数据和其他关键细节都被创建模型的公司保密。英国研究人工智能的非营利性研究机构艾达-拉芙蕾丝研究所（Ada Lovelace Institute）本月发布的一份报告发现，仅靠评估不足以确定人工智能模型在现实世界中的安全性，部分原因是现行政策允许人工智能供应商有选择性地选择进行哪些评估。

NIST 并未断言 Dioptra 可以完全消除模型的风险。但该机构确实提出，Dioptra 可以揭示哪些类型的攻击可能会降低人工智能系统的性能，并量化这些攻击对性能的影响。

然而，Dioptra 的一个主要局限是，它只能在可下载和本地使用的模型（如 Meta 不断扩展的 Llama 系列）上开箱即用。像 OpenAI 的 GPT-4o 这样受 API 限制的模型，至少目前还不能使用。