南半球

世路如今已惯，此心到处悠然。

首页文章列表博文目录

个人资料

南半球 (热门博主)

给我悄悄话

博客访问：

周末聊聊DeepSeek

(2025-02-01 13:19:37) 下一个

最近2周，DeepSeek无疑成了各类媒体的热门话题。懂一些IT的、完全不懂的、粉红、公知 …… 人人都要来说上几句。有个老朋友仅仅在DeepSeek和ChatGPT上分别问了3个问题，立刻断言SeepSeek是一堆垃圾，似乎大洋彼岸为此震惊的美国人都是傻瓜。大部分人总是懒得开动自己的大脑，而是屁股决定脑袋，根据自己既有的立场，来诠释任何看见的现象和事物，无疑这样的态度对我们真正认识世界没有帮助。

对于DeepSeek这类专业性非常强的话题，我们这些普通人首先应该知道自己能力的边界在哪里，不要试图对自己不懂的东西大放厥词，那结果只能是贻笑大方。比如DeepSeek的工作原理，她的结构、运作过程、各类参数等等，就是专家给说上一天，估计我们也领会不了些许皮毛。但是这并不妨碍我们从媒体、市场、政府和各位科技大佬的反应中，窥探出人工智能领域一些真正有价值的真相。

DeepSeek是幻方量化旗下的AI公司，创立于2023年，创始人梁文峰在量化投资和高性能计算领域有深厚背景。当年5月发布了首款模型人工智能DeepSeek V1。当时《财经十一人》报道称，国内拥有超过1万枚GPU的企业不超过5家，而DeepSeek就是其中之一。2024年5月，DeepSeek再次借助大模型价格战一跃成名。当时，DeepSeek发布了DeepSeek V2开源模型，并在行业内率先降价，将推理成本降到每百万token仅1块钱，约等于GPT-4 Turbo的七十分之一。随后，字节、腾讯、百度、阿里等大厂纷纷降价跟进。中国大模型价格战由此揭幕。

在长达一年多的时间里，西方媒体没有人对DeepSeek有丝毫兴趣，我们自然没有看到任何相关报道。只到今年1月22日，微软CEO萨提亚·纳德拉（Satya Nadella ）在达沃斯论坛的一档访谈节目中表示，中国的DeepSeek发展非常迅速，在推理时间上表现非常出色，计算效率极高，给他深刻印象。纳德拉的发言一石激起千层浪，顿时在世界媒体引得一片哗然，DeepSeek-R1 就此跻身大模型竞技榜前三，以开源、便宜 20 倍的“身价”与 ChatGPT-4o（2024.11.20）并列。今日 DeepSeek 应用已登顶苹果中国地区和美国地区应用商店免费 App 下载排行榜，在美区下载榜上超越了 ChatGPT。

难道只有微软慧眼识珠，看出来DeepSeek的不凡之处？美国科技七巨头哪个不是从市场的尸山血海中打拼出来的，它们肯定都会连夜加班测试Deep Seek的虚实，据IT之家的报道，Facebook 母公司 Meta 成立了四个专门研究小组来研究 DeepSeek 的工作原理，并基于此来改进旗下大模型 Llama。再看看特朗普称赞DeepSeek取得突破是一件好事，因为不必花费大量金钱来发展大模型；美国政府正式对Deep Seek展开国家安全调查等一系列动作。应该可以确定DeepSeek是有着真材实料的人工智能，来自美国的数据表明它在和OpenAI的正面较量中表现不相上下。

为什么一个百多人的中国民企，居然在全世界掀起如此轩然大波。因为今天的人工智能90%是由美国公司开发和采用的，美国的科技七巨头Alphabet (GOOGL; GOOG)、亚马逊(AMZN)、苹果(AAPL)、Meta Platforms (META)、微软(MSFT)、NVIDIA (NVDA)和Tesla(TSLA)，几乎垄断了人工智慧、云端运算、线上游戏以及软硬体技术的全球市场，而它们的总市值高达11.5兆美元。现在一个名不见经传的小公司居然要挤进来和他们平起平坐，这如何不让人吃惊。

去年底在一场家庭聚会上，一个在澳洲知名大公司IT部门工作的朋友告诉我，3年前美国亚马逊建议这家公司将整个IT部门外包给他们，签订云服务合同，将所有业务迁移至云端。对于这样可以节省大量人力开销的建议，公司权衡利弊后给予采纳，然后将自家的IT部门裁掉了90%。公司高层没有想到的是，当去年亚马逊再来续签下一个3年合同时，价钱上涨了300%。这时的公司已经不可能在短期内重建自己的IT队伍，彻头彻尾成了一只待宰的羔羊，这就是资本和垄断的无情力量。这也是为什么美国经济按照购买力平价计算约占全球GDP的20%不到，但是美国股市占比却高达65%，其中科技七巨头占据美国股市的25%。拿华尔街日报的话来说，它们可是全世界“会下最大金蛋的鹅”，它们的股票价格中包含着人们对其越来越高的盈利能力的期望。

美国人花了无数时间和上万亿美元构造了史无前例的科技高地，正准备像收刮澳洲公司那样吃遍天下。谁知道天有不测之风云，DeepSeek的出现，无疑让美国人感到一股凉风刺骨。股市宠儿英伟达的股价在今年第一个月从近150下跌到120美元，能够让美国华尔街的这帮全世界最精明计算，最杀伐果断和最冷酷无情的人下单抛售，Deep Seek肯定做对了什么事 - 对英伟达构成了直接的威胁，英伟达的高端图形处理单元 (GPU) 已成为全球 AI 训练的支柱，售价高达4万美元。虽然英伟达声称其GPU对于先进的 AI 流程仍将是必不可少的，但DeepSeek的出现挑战了这样的说法。

网上有许多报道，DeepSeek的技术是“蒸馏”或者说是偷窃自ChatGPT。说老实话，“蒸馏”是什么意思，完全不懂。“蒸馏”和偷窃有什么区别，我也说不清楚。老话说“捉贼见赃，捉奸见双”，凭空讨论DeepSeek有没有偷窃ChatGPT的技术，那只能是浪费时间，只有闲的无聊的人才会纠结于此。从特朗普总统最近爱说的“常识”来看，如果说一项花费许多年时间，投资几千亿美元的技术，能够让人隔着太平洋轻易偷窃或者复制，这似乎也太小瞧科技元老美国人了吧。对此美国AI初创公司Perplexity首席执行官亚拉文·斯里尼瓦斯（Aravind Srinivas）在接受 CNBC 采访时表示：“因为 DeepSeek 必须想办法绕过种种限制，最终实际上打造出了效率更高的东西。他们提出了许多聪明的解决方案。通常的认知是中国人擅长复制。但现实是，DeepSeek 3 中的一些细节非常出色，我甚至不会惊讶 Meta 会借鉴其中的一些内容，并将其应用到 Llama 模型中。这并不是说他们在复制，而是他们在创新。”相信行内专家的评论更贴近实情。

再说今天全世界在美国面前俯首称臣之时，有谁会计较当初美国从欧洲剽窃了多少技术；现在上达权贵富豪下至贩夫走卒，当人们手捧一杯纯清透亮香气扑鼻的英国红茶，享受其中的时候，又有谁会想到英国人鬼鬼祟祟从中国偷窃制茶技术的艰辛过程，NO ONE CARE! 现实世界讲究的是你能够提供什么，我又能够从中得到什么。

总的来说，美国专家们对DeepSeek的功能基本认同，但是对其声称只花了600万美元来开发这个模型普遍存疑。Scale AI的亚历山大·王称DeepSeek拥有5万块英伟达H100高端芯片，尽管他们不能公开承认；马斯克多次发表意见，认为DeepSeek 如此低的训练成本是不可能的。我们普通老百姓很难对这样专业性极强的问题做出论断，但是从“常识”出发还是可以看出其中的端倪。虽然说杭州的研发成本肯定会比硅谷要低得多，但600万美元在悉尼只是买一套好房子的钱，想凭此训练出一个世界一流的人工智能模型出来，这显然是不可能的，这个牛吹的太大了。自从宋襄公信守诺言被打得大败之后，只有为了达到目的不择手段的人才能在中国立足，谎报数据更是小事一桩。谁也不知道DeepSeek到底用了几块英伟达芯片，不过在美国严密封禁之下，DeepSeek又是如何拿到英伟达的高端芯片，这也许是一个永远不会曝光的秘密。

相对于ChatGPT的闭源，DeepSeek的开源也引起了广泛的关注，Meta首席AI科学家Yann Lecun表示，DeepSeek-R1面世与其说意味着中国公司在AI领域正在超越美国公司，不如说意味着开源大模型正在超越闭源。“DeepSeek会从开放研究和开源中获利，可能会类似Meta的PyTorch和Llama。他们提出新想法，并在别人的工作基础上实现。因为他们的工作是公开和开源的，每个人都能从中获利，这就是开放研究和开源的力量。” 因为历史的经验证明，一个好的开源模型会吸引全世界的AI工作者在这个基础上开发，这个模型的拥有者可以借此掌控全球AI开发者的心智和生态系统，使国家能够拥有更少的资源来独立发展强大的AI能力，这种发展无疑可以改变技术领域的国际关系和竞争平衡。亚拉文·斯里尼瓦斯认为“如果整个美国AI生态系统都依赖于中国的开源模型，那将是非常危险的......人们曾质疑是否应该信任扎克伯格，但现在的问题是，我们是否应该信任中国？”这应该就是美国人开始担心国家安全的原因。

DeepSeek的问世，无疑搅了美国人的一朝春梦，人工智能的垄断可能就此被打破，游戏规则也很可能就此被改写。当然到目前为止，这一切仅仅是可能而已，中国人对此有着清醒的认识。DeepSeek创办人梁文锋在1月20日下午成为中国总理李强的座上宾，参加了中国国务院总理座谈会。梁文锋在会上说：“尽管中国企业正努力追赶，但美方限制先进芯片出口中国仍是瓶颈。”同时清华大学计算机系副教授刘知远指出，“AGI新技术还在加速演进，未来发展路径尚不明确。我们仍在追赶阶段，已经不是望尘莫及，但也只能说是望其项背”，“在别人已经探索出来的路上跟随快跑是相对容易的，接下来我们要面对一团未来迷雾。”

OpenAI的首席执行官萨姆·奥尔特曼（Samuel Harris Altman）去年访问印度时，曾傲慢地宣称“在训练基础模型方面与我们竞争完全没有希望”、“不应该尝试（竞争）”、“你能做的也就尝试而已”，把软件能力比中国还要厉害，本应该率先搞出AI模型的印度人吓唬的心灰意冷。虽然现在中国人依然处于追赶阶段，但是DeepSeek的发布，已经成功激起了印度人的攀比之心，印度通信以及电子和信息技术部长阿什维尼·瓦伊什瑙表示自己会亲自领军来建立本地化AI模型；英国议会也开始讨论建立自己的AI模型。事实上，DeepSeek的AI模型打破了全世界对财大气粗美国巨头的迷信，AI模型从此变得不再高不可攀，相信从今以后会有更多的国家加入研发人工智能的行列，美国赢家通吃的局面开始动摇，全世界的AI用户都将从中受益匪浅，也许这才是DeepSeek对人类最大的价值所在。

[ 打印 ]

[ 加入书签 ]

阅读 ( ) ┆ 评论 (7)

behappylady 2025-02-02 15:09:46 回复悄悄话赞好文!

largesammy 2025-02-02 03:51:09 回复悄悄话印度人软件能力没比中国人厉害，但是他们英语好，能跟领导层沟通好，这点比中国人强，所以他们的咨询企业在西方攻城略地。但是他们印度自己没搞出什么成绩来。Deepseek自己说，花几百万一次蒸馏的是V3版本，并不是号称打遍天下的R1。R1花了多少钱没说，应该只多不少。V3我亲测，其实很一般，跟R1比差很多。

Deepseek是不是抄袭很好理解嘛。你花钱去请最好的老师给你上了一门课，然后你做了很多笔记，考试打趴了其他应试者，然后你把你的笔记原封不动的免费传阅四海，还无偿培训不懂这门课的人，你说这样你算不算抄袭。

其实这次除了OpenAI，最郁闷的还是Meta，号称拥有全球最多的H100 GPU，搞出的模型连前10都排不上。

ahhhh 2025-02-01 23:09:08 回复悄悄话如果DS500万是假的，最先干掉它的应该是国内的大厂，对吧。它们都认了，就不要亚历山大·王之类的来推理了。毕竟他的公司是输家之一。
这种蒸馏技术，其它厂都会复制。真的假的，几个月之内见分晓。

新林院 2025-02-01 19:22:26 回复悄悄话多谢科普。
如有可能，再科普以下就更好了：
（1）DeepSeek 和 OpenAI 对比有什么创新？
（2）DeepSeek 是怎样做到只消耗相当于 OpenAI 3% 的 computing power?

古树羽音 2025-02-01 19:09:44 回复悄悄话 "事实上，DeepSeek的AI模型打破了全世界对财大气粗美国巨头的迷信，AI模型从此变得不再高不可攀，相信从今以后会有更多的国家加入研发人工智能的行列，美国赢家通吃的局面开始动摇，全世界的AI用户都将从中受益匪浅，也许这才是DeepSeek对人类最大的价值所在。"

很学习！这真是一篇中肯地将DeepSeek“开源科普”的文章。

喜欢简单2023 2025-02-01 18:27:28 回复悄悄话好文。
技术细节我不懂，但 DeepSeek 打破了 OpenAI + NVIDIA 的垄断和迷信，启发了其他人的思路，例如，硬件非得 NVIDIA 的高端设备吗？
:-

金笔 2025-02-01 16:07:01 回复悄悄话奥特曼无疑是人工智能界最让人痛恨的一位。当OpenAI开始收费后，所有资料库都也关闭大门，不付费休想使用。

登录后才可评论.