自我进化的人工智能代理可能会“遗忘”安全性,研究警告

CN
Decrypt
8小时前

一个能够在工作中学习的自主AI代理也可能会忘记如何安全地行为,这一点在一项新的研究中得到了警示,该研究警告了自我进化系统中一种之前未记录的失败模式。

研究识别了一种现象,称为“误进化”(misevolution)——这是在AI代理自身改进循环中出现的安全对齐的可测量衰退。与一次性越狱或外部攻击不同,误进化是在代理自我重训练、重写和重新组织以更高效地追求目标时自发发生的。

随着公司竞相部署能够实时适应的自主记忆型AI代理,研究结果表明,这些系统可能会悄然破坏自身的保护措施——泄露数据、授予退款或执行不安全的行为——而无需任何人类提示或恶意行为者。

一种新型的漂移

与描述模型性能随时间下降的“AI漂移”类似,误进化捕捉了自我更新代理在自主优化周期中如何侵蚀安全性。

在一次受控测试中,一名编码代理对有害提示的拒绝率从99.4%骤降至54.4%,而其攻击成功率则从0.6%上升至20.6%。随着系统在自生成数据上进行微调,类似的趋势出现在多个任务中。

该研究由上海人工智能实验室、上海交通大学、中国人民大学、普林斯顿大学、香港科技大学和复旦大学的研究人员共同进行。

传统的AI安全工作集中在训练后表现相同的静态模型上。自我进化代理通过调整参数、扩展记忆和重写工作流程来更高效地实现目标,从而改变了这一点。研究表明,这种动态能力创造了一种新的风险类别:在代理自身的改进循环中,安全性和对齐的侵蚀,而无需任何外部攻击者。

研究人员观察到AI代理自动发放退款,通过自建工具泄露敏感数据,并在其内部循环优化性能而非谨慎时采用不安全的工作流程。

作者表示,误进化不同于prompt injection,后者是对AI模型的外部攻击。在这里,风险是在代理适应和优化过程中内部积累的,使得监督变得更加困难,因为问题可能逐渐出现,并且只有在代理已经改变其行为后才会显现。

小规模信号与更大风险

研究人员通常将高级AI危险框架在情景中,例如“回形针类比”,其中AI最大化一个无害的目标,直到消耗的资源远超其授权。

其他情景包括少数开发者像封建领主一样控制超级智能系统,一个被锁定的未来,强大的AI成为关键机构的默认决策者,或一个触发现实世界操作的军事模拟——追求权力的行为和AI辅助的网络攻击构成了这一列表。

所有这些情景都依赖于由优化、互联和奖励黑客驱动的微妙但累积的控制变化——这些动态在当前系统的小规模中已经可见。这篇新论文将误进化呈现为这些相同力量的具体实验室示例。

部分修复,持续漂移

研究指出,快速修复改善了一些安全指标,但未能恢复原有的对齐。教导代理将记忆视为参考而非命令,提高了拒绝率。研究人员注意到,在整合新工具之前添加的静态安全检查减少了漏洞。尽管有这些检查,这些措施都未能使代理恢复到其进化前的安全水平。

论文提出了未来系统更强大的策略:在自我进化后进行后训练安全修正、对新工具进行自动验证、在关键工作流程路径上设置安全节点,以及进行持续审计而非一次性检查,以应对随时间推移的安全漂移。

这些发现为构建自主AI的公司提出了实际问题。如果在生产中部署的代理不断学习并重写自己,谁负责监控其变化?论文的数据表明,即使是最先进的基础模型在放任自流时也会退化。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。