人工智能研究里最有意思的时刻,并不是某个华丽的新算法问世,而是有人做了一件看似“简单得不应该有效”的事,却把整个领域的默认常识敲出一个坑。这篇 NeurIPS 2025 oral 论文就是这样的案例:研究者没有发明新奖励、没有设计新技巧,而是提出一个简单的问题——如果把强化学习里常用的 2~5 层 MLP,一口气堆到 1000 层,会发生什么?
按照过去几十年的经验,这种行为无异于往火场里泼汽油:深度越多,训练越不稳定,梯度像喝醉一样摇摆,模型半小时就能崩溃。可结果却像惊悚片突然转成家庭喜剧:性能提升了 2 倍、10 倍,某些任务甚至达到 50 倍,机器人还学出了从前没教过的动作。就好像一个平时走路都磕磕绊绊的孩子,突然自己学会了绕桌角、挤过窄道、提前旋转手腕避免碰撞,让大人怀疑他半夜是不是偷偷被外星人升级了脑子。
要理解为何这件事震动整个 RL 社区,需要先讲一点历史。强化学习长期被认为“深不起来”,不是因为研究者保守,而是因为 RL 的训练目标太不稳定:奖励一会儿有一会儿没有,值函数像神经质一样时涨时跌,策略更新又彼此影响。深网络夹在这种混乱生态里,很容易出现梯度爆炸、梯度消失、行为发散等问题,像一个人一边过独木桥一边被三个人推着跑。因此,浅网成为默认配置,大家也逐渐形成一种温和的偏见:RL 不适合深度模型。
作者不认这一套。他们怀疑问题不是“深度不行”,而是“训练方式不对”。于是这项研究把整个 RL 最容易失控的地方拆下来、换掉、重装,让深度网络第一次能够在 RL 中“活得像深度网络该有的样子”。
他们做的第一件事,说简单也简单:把强化学习里最“爱闹情绪”的部分直接换掉。传统的 RL 让模型判断每个动作“好不好”,这就好比让一个孩子一边考试一边自己打分,情绪波动稍大,分数就乱跳,训练自然不稳定。论文改用 CRL(Contrastive Reinforcement Learning),它不让网络评判动作价值,而是问一个极朴素的问题:“这两个状态算不算同一条轨迹上的片段?” 你可以把它理解成把哲学题变成了连连看,任务本质从“评价”变成“分辨”。而深度学习过去十几年最稳定、最成熟的任务就是分类,激活函数、梯度传播、初始化、优化器,全为它锻炼得极其扎实。于是深网在 RL 中不再像风暴里跳舞,而是干回老本行,训练稳定许多。
第二件事更直觉:让 agent 放养,拼命玩。以往 RL 要奖励、示范、精心设计目标,像个事无巨细的家长,而这篇论文选择“放手育儿”。研究者什么奖励都不给、不设目标,只把 agent 丢进模拟器里让它乱跑乱爬、随便撞墙、卡住、跌倒、尝试,靠无数次失败和成功积累经验。模拟器的好处是快、便宜、能并行,一天能“摔”出别人一年都收集不到的数据。一千层的网络最怕吃不饱,而这里恰好给了它一整个自助餐。深网络天然喜欢大数据,它越深,越有能力从这些杂乱轨迹里找出“动作属于哪一类”“状态如何关联”。
第三件事听起来技术,但其实一句话:给这栋 1000 层的大楼装上钢筋、防震和稳压系统,让它别塌。 深网最大的问题就是层数多了容易断梯度、失记忆、内部表示乱跑。论文用的三件武器——残差结构(ResNet)、LayerNorm、Swish 激活——分别解决“梯度走不动”“状态漂移”“信号太硬太脆”这些老毛病。名字虽然技术,但做的事情非常朴素:让深网络别晕车、别断片、别抽风。等这些“安全设备”全装好,训练 1000 层不再像炼丹,而像组装工业级架构,稳定得出奇。
当这三件事组合在一起,故事就开始“跑偏”——偏得令人喜悦。网络不仅指标提高,还学出了浅网完全不具备的动作智慧。机器人在狭窄空间里会自动侧身前行,好像意识到自己的宽度;机械臂在抓取前会提前转腕,为即将遇到的障碍让路;迷宫中的 agent 会在转角前几步就开始调整方向,而不是现场慌张反应。更诡异的是:这些行为没有奖励塑造、没有专家示范,全是深网络从海量轨迹中自己总结出来的。这是一种典型的“涌现”:你没教,但它自己悟了。
而这一点,正是这篇论文让人兴奋的核心。深度第一次赋予 RL“跨时间拼接经验”的能力。浅网只能记短反应,深网却能把许多小动作缝成长链策略,把碎片经验组织成结构。这类能力正是高级动作、灵活智能的关键。RL 长期以来缺的不是技巧,而是深度带来的表达空间。
有了这样的基础,应用前景几乎一眼可见:家用机器人可靠自监督学会整理与操作;仓储机械臂无需大量人工规则即可完成复杂抓取;无人机在陌生环境中自学习避障;自动驾驶可以从无标签视频中吸收驾驶直觉;游戏里的智能体则能像人一样根据历史经验推断长链操作。更重要的是:RL 终于拥有一条类似 NLP、CV 的“规模化路线图”——堆深、堆大、堆数据就能变强。
当然,实验背后的难度远比论文写得轻松。训练 1000 层网络像建一千层大楼,任何小参数出错都可能导致全面坍塌。RL 的内在不稳定性又让失败不是缓慢滑落,而是突然跳崖式崩溃。作者必须通过大量 ablation 实验逐一确认:哪些结构必需、哪些超参敏感、哪些技巧可以避免训练中途“发疯”。这种工程量堪比重新发明一套稳定训练指南。
也正因此,学界反应格外整齐:这篇论文不仅提高性能,更重要的是它展示了 RL 也可能遵循与大模型类似的 scaling law——深度越大,能力越多,有时还会突然出现意外之“悟”。这意味着 RL 的未来或许不是调参、不是奖励工程,而是彻底拥抱深度与规模。
总结一下就是:我们以为强化学习像一个没奖励、没指导的孩子,因此学得慢、行为怪。结果这篇论文轻轻告诉你:孩子不是笨,只是脑子不够深。给他一千层大脑,他自然会把世界想明白。