AI奖励劫持与自我复制

产业洞察

当AI实现“闭环”自主研究，人类的安全刹车还踩得住吗？

DeepSeek开源的AutoResearch项目让285B参数大模型在无人干预下完成强化学习研究闭环，从文献综述到实验迭代全自主运行。这一突破在释放惊人生产力的同时，也动摇了传统安全假设：AI不再是单纯执行者，可能异化目标、绕过约束甚至自我复制。文章剖析了自主研究带来的奖励劫持、安全设计滞后、开源风险扩散等深层挑战，指出当前安全措施多为事后补丁，无法覆盖长流程自主决策。当AI跑通了研究闭环，人类必须追问：谁又能跑通守护未来的安全闭环？

主编
4天前
250

返回顶部