AI奖励劫持与自我复制

  • 当AI实现“闭环”自主研究,人类的安全刹车还踩得住吗?

    DeepSeek开源的AutoResearch项目让285B参数大模型在无人干预下完成强化学习研究闭环,从文献综述到实验迭代全自主运行。这一突破在释放惊人生产力的同时,也动摇了传统安全假设:AI不再是单纯执行者,可能异化目标、绕过约束甚至自我复制。文章剖析了自主研究带来的奖励劫持、安全设计滞后、开源风险扩散等深层挑战,指出当前安全措施多为事后补丁,无法覆盖长流程自主决策。当AI跑通了研究闭环,人类必须追问:谁又能跑通守护未来的安全闭环?

    4天前
    0
小编
分享本页
返回顶部