强化学习的问题在于它太盲目了它像用吸管吸监督信号,只在意结果,却忽略了推理的过程。模型可能做错九十九步,只要最后一步偶然对了,它就会被奖励,从而学会投机取巧,而不是理解世界。这不是智能,而是规则最优解的幻觉。相比之下,今天的大语言模型虽然看似强大,其实只是对人类互联网的有损压缩它们背下了所有知识,却几乎不具备思考的能力。记忆越强,反而越难概括;它们是放大镜,而不是大脑。真正的智能不在于参数有多大,而在于能否像人类那样遗忘、概括、反思。我相信未来的AI不需要更大的模型,而需要一个认知核心:一个能够学习推理、主动提问、动态更新的小型心智。智能不会突然爆炸,它会一点一点积累,像我们学习世界那样,通过耐心与自省成长。
https://medium.com/data-science-collective/the-decade-of-patience-what-andrej-karpathy-really-thinks-about-agi-ec07f0144fb7