朱头山

无意邀众赏,一心追残阳
个人资料
朱头山 (热门博主)
  • 博客访问:
正文

DeepSeek 查伪的意义

(2025-01-27 10:20:54) 下一个

就在美国推出高达5000亿美元的星际门计划时,中国一款AI模型震动了硅谷,华尔街,也使人们对这个巨大的星际门计划的意义产生了怀疑。

1月20日,中国新兴公司深度求索(DeepSeek)发布了推理AI大模型最新版DeepSeek-R1.经第三方试用和论证,其性能和ChatGPT-o1追平。问题是,DeepSeek R1真正与众不同之处在于它的成本——或者说成本很低。DeepSeek的R1的预训练费用只有557.6万美元,仅是OpenAIGPT-4o模型训练成本的不到十分之一。同时,DeepSeek公布了API的定价,每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元。这个收费大约是OpenAI o1运行成本的三十分之一,也因此,DeepSeek被称为AI界的“拼多多”。

按深度求索的说法,在构建和训练模型时,只用了2048张H800显卡,价格只有被美国限制销往中国的H100(3万美元每张)的三分之一。而OpenAI的第一代ChatGPT模型用了20000张A100 (2万美元每张),新一代的具体数量不详,但从其每年几千亿的耗费来看,DeepSeek的性价比至少在ChatGPT最新型号的30倍以上。

AI投资中最大的就是芯片,其次是训练费用。而AI是个耗电大户,降温也是个大问题,美国最近的星际门计划,把核电厂都考虑上了。能玩得起AI模型的都是大厂,投资都是以每年上千亿美元来计的。投资的目的是盈利,据估算,需要每年收入6000亿美元,才能实现基本的break even。可以想象,AI必然是要收费的。

但DeepSeek却是开源的,任何人都可以利用其源代码,来开发自己的产品,不用支付专利费。测评家最大的诟病,是DeepSeek无法问询政治敏感词,如台湾和习近平。但这是可以改变的,开发者在原有框架下加入这方面内容训练,就可以搜寻了。如果OpenAI花了大价钱开发的模型,遇见了一个不需要专利费的竞争对手,那它的最大盈利目标专利使用权就落空了。现在我使用的AI多是免费的,就算收费的ChatGPT-1o也只要20美元每月,靠这点钱,OpenAI要猴年马月才能收入6000亿美元?

DeepSeek在华尔街引起恐慌,显卡生产商英伟达(Nvidia)的股价大跌。它的显卡利润率达90%, 几乎每个员工都是富翁,如果以后别人都用普通的游戏机显卡搞AI,英伟达如何活?租用英伟达显卡的大型数据中心如何活?AI画的饼,让大量投资进入该行业,一旦了解到盈利前景很差,投资必然大减,科技巨头必然减缓购买和投入,英伟达破产不说,全靠投资撑着的OpenAI也得破产,一大堆AI初创企业全得破产!

这对美国的战略也产生了影响。本来,通过控制AI芯片出口,美国意在压制中国AI产业的发展。现在,高级芯片可有可无了,而DeepSeek的开源技术,显然能吸引更多的开发者以中国技术为基础平台开发产品,以后的全球AI以中国平台为基础了,就像现在全球的电脑都以微软的操作系统为基础,那如何来卡中国的脖子?如此,还搞星际门干嘛?

于是,出现了一波质疑DeepSeek成就的声音。有个初创公司老板Alexander Wang认为,DeepSeek在说谎,它至少用了5万张H100芯片,因为这是对中国禁运的,但通过黑市不难搞到。为了避免法律官司,所以DeepSeek声称使用了中国可以得到的H800降能芯片。另外,OpenAI也声称 DeepSeek非法使用蒸馏技术获取自己的数据。

专家们对于的DeepSeek的分析,认为它确实有些创新,包括以下方面:

  • 数据蒸馏技术: DeepSeek 采用了数据蒸馏技术,从海量数据中提取最关键的信息,生成高质量的训练数据集。这大大降低了对数据量的需求,提高了训练效率,并增强了模型训练效果。
  • FP8 混合精度框架: DeepSeek 使用 FP8 混合精度框架进行低精度计算。这在保证模型计算精度的前提下,大幅度减少了内存使用和计算成本。
  • 强化学习的创新应用: DeepSeek 在 R1 模型的训练中,直接尝试了三种不同的技术路径,包括直接强化学习训练、多阶段渐进训练和模型蒸馏,并且都取得了成功。其中,直接强化学习的成功应用尤为重要,DeepSeek-R1 是首个证明该方法有效的模型。他们通过硬编码规则计算真实奖励,避免使用容易被破解的奖励模型,从而使模型产生自我反思和探索行为。
  • 开源和低成本 API: DeepSeek 不仅开源了模型,还提供了定价极低的 API 服务,进一步降低了用户的使用成本。
  • 专注技术而非硬件堆砌: DeepSeek 并没有像一些公司那样依赖大量的昂贵硬件,而是更注重技术创新和软件优化,以更少的资源达到更好的效果。

 

总而言之,DeepSeek 的成功并非偶然,而是通过一系列技术创新和策略选择实现的。他们的方法为 AI 领域的低成本高效训练提供了重要的借鉴意义。但Wang的说法也不无可能,也就是说,如果真的是这样的话,说明芯片能力还是决定性的,而DeepSeek因为其欺骗行为,将面临法律和信誉上的损失。

为此,Meta开始依据DeepSeek 论文描述的方法,使用2048张H800显卡进行训练和开发,看是否能重复其结果。而别的厂家,也打算静观Meta的结果,可能也会从不同侧面去重复结果。

Peer Review and reproduce(同行检验和重复)是科学技术发展的试金石。记得去年有个韩国试验室宣称发现了常温超导合金,结果在同行验证下无法重复结果,被否认了。还有一个中国科学家声称发现了一种可以进行基因编辑的技术,还发表在Nature上,结果也被否认了!

和以上情况不同,就算对DeepSeek 的查伪结果不佳,DeepSeek的真实性不存在问题,只是其低成本宣称不实。但即使DeepSeek拥有5万块H100,也只是美国AI大佬的零头,依然不能否定其在工程技术,特别是技术路线上的创新。至于OpenAI的指责,在法律上的问题倒并不大,根据知识产权法律,AI产品不拥有知识产权,再说OpenAI收集的那么多信息,也没支付别人知识产权费用。

DeepSeek是开源的,代码都公布了,别人可以随便用。因此,这些查伪的结果无论如何,对一个非盈利产品,意义不大。就像有人老在文学城查抄袭,文学城博文没有稿费也没有打赏,属于非盈利作品,查实了也只是打打嘴仗,不会有法律后果。

DeepSeek对美国国家利益和AI公司的商业利益都有很大冲击,也深刻影响了国际政治。如果美国的公司都以DeepSeek的产品开发应用平台,美国的AI大公司要亏钱,美国技术领域也被中国牵着鼻子走了;如果朝鲜,伊朗也用DeepSeek的产品开发军事应用,那对美国的安全利益有着严重的影响。

因此,下一步,美国一定会在本国以及其势力范围内限制甚至禁用DeepSeek, 其次,不排除美国会和中国谈成一个限制AI扩散的协议,就像当初美苏关于核武器扩散的协议一样。

 

 

 

 

 

[ 打印 ]
阅读 ()评论 (8)
评论
cager812 回复 悄悄话 搞前沿上的玩意发大财的机会比后知后觉的要多得多。
朱头山 回复 悄悄话 很多硅谷大佬,包括马斯克,都认同Wang的观点,但也有人说,就算Deep Seek真的使用了5万块H100, 取得这样的成就也很了不起。AI大公司的目标是亿块GPU了,现在都在十万,百万级别了,DS的冲击还是很大的。
无头无脑 回复 悄悄话 按方法论角度分析,deepseek没有低层的理论突破是不可能“遥遥领先的”,然而在算法或策略上的改进能提高目前AI的水平是可能的,这种差异更象丰田车与道奇车之前的差异。
闲聊几句 回复 悄悄话 所以啊今天软件公司的股票没怎么跌,而硬件公司的股票跌的稀里哗啦
上海大男人 回复 悄悄话 一般专家都知道deep seek用的技术,美国人也应该知道,何况还有顶级芯片的优势。
闲聊几句 回复 悄悄话 好在有搞AI的专业人士会搞清楚,外行凭喜好都是瞎掰
soullessbody 回复 悄悄话 想弯道超车遥遥领先的,大概率是吹牛或者会失控翻车。
硅谷工匠 回复 悄悄话 Thanks. I think it will be difficult to reproduce, since everything is so sensitive. The biggest problem of AI LLM is that it is basically useless - no use except as a calculator or minor assistant.
登录后才可评论.