AI已学懂欺骗人类 科学家指若不管制将造成严重后果

2024-05-13科技

在一个AI欺诈行为研究其中，科学家发现了AI曾在不同场景下出现欺骗行为，包括双面谋略、假扮人类及在模拟安全测试中改变行为。

麻省理工学院MIT研究团队指出，随着AI的欺骗能力日益增强，对社会的潜在威胁也越来越大。研究首席作者、AI安全研究员帕克（Peter Park）博士表示，这些欺诈行为令人担忧，即使被认为是安全的AI系统，也可能会伪装其真实意图。

研究中的一个关键案例是Meta所开发的Cicero程序，在一款名为【Diplomacy】（外交）的战略游戏中，表现超越了绝大多数人类玩家，进入了前10%的高分段。然而帕克的团队发现了Cicero在游戏中预谋撒谎、串谋欺骗其他玩家的多个实例。例如游戏中Cicero扮演法国，与人类玩家扮演的德国合谋，欺骗并入侵同为人类玩家扮演的英格兰。Cicero曾承诺会保护英格兰，却偷偷向德国通风报讯。另一个例子是，Cicero在系统重启后，对另一位玩家解释说：「我正跟女朋友通电话。」

（其后Meta发出声明指Cicero只为一项研究计划，只用来玩【Diplomacy】，而且并没有打算把它推出市场或应用于公司现有产品。）

其他AI模型也展现了它们的「欺骗能力」：

一个德州扑克程序，能够在比赛中虚张声势吓倒职业人类玩家；

一个经济谈判系统，在谈判中向对方误导其偏好以获得优势；

一个由AI运行的生物模拟器曾「装死」，以欺骗另一个淘汰繁殖迅速生物的AI系统测试，待测试结束后便恢复活力。

帕克强调，需要通过立法和技术创新来降低由于AI欺诈行为所带来的风险。他们建议对AI生成的内容加上数码水印，并开发能够检测AI欺诈行为的技术。这份研究呼吁政府设计出针对AI欺骗潜力的安全法规，避免造成欺诈、篡改选举结果等风险。

数据源：The Guardian