AI诈欺行为研究,科学家发现AI不同情境出现欺骗行为,包括双面谋略、假扮人类及模拟安全测试时改变行为。
麻省理工学院MIT研究团队指出,AI欺骗能力日益增强,对社会潜在威胁也越来越大。首席作者AI安全研究员帕克(PeterPark)博士表示,诈欺行为令人担忧,即使安全的AI系统,也可能会伪装真实意图。
关键案例是Meta开发的Cicero程式,在〈Diplomacy〉(外交)战略游戏,表现超过多数人类玩家,进入前10%高段。然团队发现Cicero会撒谎、串谋欺骗其他玩家,如Cicero扮演法国,与人类玩家德国合谋,欺骗并入侵人类玩家英格兰,Cicero承诺会保护英格兰,却偷偷向德国通风报信。另一个例子是Cicero系统重启后对另一位玩家说:“我在和女朋友讲电话。”
Meta声明Cicero只是研究计划,只开发玩〈Diplomacy〉,没有打算上市或放入现有产品。
其他AI模型也展现“欺骗力”:德州扑克程式能比赛时虚张声势吓倒职业玩家;经济谈判系统误导对方自己的偏好以取得优势;AI运行的生物模拟器曾“装死”,欺骗另一个淘汰繁殖迅速生物的AI系统测试,测试结束后就恢复活力。
帕克强调需透过立法和技术创新降低AI诈欺行为的风险。建议AI生成内容加上数位浮水印,开发检测AI诈欺行为的技术,呼吁政府设计AI欺骗力安全法规,避免造成诈欺、窜改选举结果等风险。