南半球

世路如今已惯,此心到处悠然。
个人资料
南半球 (热门博主)
  • 博客访问:
正文

周末聊聊DeepSeek

(2025-02-01 13:19:37) 下一个

最近2周,DeepSeek无疑成了各类媒体的热门话题。懂一些IT的、完全不懂的、粉红、公知 …… 人人都要来说上几句。有个老朋友仅仅在DeepSeek和ChatGPT上分别问了3个问题,立刻断言SeepSeek是一堆垃圾,似乎大洋彼岸为此震惊的美国人都是傻瓜。大部分人总是懒得开动自己的大脑,而是屁股决定脑袋,根据自己既有的立场,来诠释任何看见的现象和事物,无疑这样的态度对我们真正认识世界没有帮助。

 

对于DeepSeek这类专业性非常强的话题,我们这些普通人首先应该知道自己能力的边界在哪里,不要试图对自己不懂的东西大放厥词,那结果只能是贻笑大方。比如DeepSeek的工作原理,她的结构、运作过程、各类参数等等,就是专家给说上一天,估计我们也领会不了些许皮毛。但是这并不妨碍我们从媒体、市场、政府和各位科技大佬的反应中,窥探出人工智能领域一些真正有价值的真相。

 

DeepSeek是幻方量化旗下的AI公司,创立于2023年,创始人梁文峰在量化投资和高性能计算领域有深厚背景。当年5月发布了首款模型人工智能DeepSeek V1。当时《财经十一人》报道称,国内拥有超过1万枚GPU的企业不超过5家,而DeepSeek就是其中之一。2024年5月,DeepSeek再次借助大模型价格战一跃成名。当时,DeepSeek发布了DeepSeek V2开源模型,并在行业内率先降价,将推理成本降到每百万token仅1块钱,约等于GPT-4 Turbo的七十分之一。随后,字节、腾讯、百度、阿里等大厂纷纷降价跟进。中国大模型价格战由此揭幕。

 

在长达一年多的时间里,西方媒体没有人对DeepSeek有丝毫兴趣,我们自然没有看到任何相关报道。只到今年1月22日,微软CEO萨提亚·纳德拉(Satya Nadella )在达沃斯论坛的一档访谈节目中表示,中国的DeepSeek发展非常迅速,在推理时间上表现非常出色,计算效率极高,给他深刻印象。纳德拉的发言一石激起千层浪,顿时在世界媒体引得一片哗然,DeepSeek-R1 就此跻身大模型竞技榜前三,以开源、便宜 20 倍的“身价”与 ChatGPT-4o(2024.11.20)并列。今日 DeepSeek 应用已登顶苹果中国地区和美国地区应用商店免费 App 下载排行榜,在美区下载榜上超越了 ChatGPT。

 

难道只有微软慧眼识珠,看出来DeepSeek的不凡之处?美国科技七巨头哪个不是从市场的尸山血海中打拼出来的,它们肯定都会连夜加班测试Deep Seek的虚实,据IT之家的报道,Facebook 母公司 Meta 成立了四个专门研究小组来研究 DeepSeek 的工作原理,并基于此来改进旗下大模型 Llama。再看看特朗普称赞DeepSeek取得突破是一件好事,因为不必花费大量金钱来发展大模型;美国政府正式对Deep Seek展开国家安全调查等一系列动作。应该可以确定DeepSeek是有着真材实料的人工智能,来自美国的数据表明它在和OpenAI的正面较量中表现不相上下。

 

为什么一个百多人的中国民企,居然在全世界掀起如此轩然大波。因为今天的人工智能90%是由美国公司开发和采用的,美国的科技七巨头Alphabet (GOOGL; GOOG)、亚马逊(AMZN)、苹果(AAPL)、Meta Platforms (META)、微软(MSFT)、NVIDIA (NVDA)和Tesla(TSLA),几乎垄断了人工智慧、云端运算、线上游戏以及软硬体技术的全球市场,而它们的总市值高达11.5兆美元。现在一个名不见经传的小公司居然要挤进来和他们平起平坐,这如何不让人吃惊。

 

去年底在一场家庭聚会上,一个在澳洲知名大公司IT部门工作的朋友告诉我,3年前美国亚马逊建议这家公司将整个IT部门外包给他们,签订云服务合同,将所有业务迁移至云端。对于这样可以节省大量人力开销的建议,公司权衡利弊后给予采纳,然后将自家的IT部门裁掉了90%。公司高层没有想到的是,当去年亚马逊再来续签下一个3年合同时,价钱上涨了300%。这时的公司已经不可能在短期内重建自己的IT队伍,彻头彻尾成了一只待宰的羔羊,这就是资本和垄断的无情力量。这也是为什么美国经济按照购买力平价计算约占全球GDP的20%不到,但是美国股市占比却高达65%,其中科技七巨头占据美国股市的25%。拿华尔街日报的话来说,它们可是全世界“会下最大金蛋的鹅”,它们的股票价格中包含着人们对其越来越高的盈利能力的期望。

 

美国人花了无数时间和上万亿美元构造了史无前例的科技高地,正准备像收刮澳洲公司那样吃遍天下。谁知道天有不测之风云,DeepSeek的出现,无疑让美国人感到一股凉风刺骨。股市宠儿英伟达的股价在今年第一个月从近150下跌到120美元,能够让美国华尔街的这帮全世界最精明计算,最杀伐果断和最冷酷无情的人下单抛售,Deep Seek肯定做对了什么事 - 对英伟达构成了直接的威胁,英伟达的高端图形处理单元 (GPU) 已成为全球 AI 训练的支柱,售价高达4万美元。虽然英伟达声称其GPU对于先进的 AI 流程仍将是必不可少的,但DeepSeek的出现挑战了这样的说法。

 

网上有许多报道,DeepSeek的技术是“蒸馏”或者说是偷窃自ChatGPT。说老实话,“蒸馏”是什么意思,完全不懂。“蒸馏”和偷窃有什么区别,我也说不清楚。老话说“捉贼见赃,捉奸见双”,凭空讨论DeepSeek有没有偷窃ChatGPT的技术,那只能是浪费时间,只有闲的无聊的人才会纠结于此。从特朗普总统最近爱说的“常识”来看,如果说一项花费许多年时间,投资几千亿美元的技术,能够让人隔着太平洋轻易偷窃或者复制,这似乎也太小瞧科技元老美国人了吧。对此美国AI初创公司Perplexity首席执行官亚拉文·斯里尼瓦斯(Aravind Srinivas)在接受 CNBC 采访时表示:“因为 DeepSeek 必须想办法绕过种种限制,最终实际上打造出了效率更高的东西。他们提出了许多聪明的解决方案。通常的认知是中国人擅长复制。但现实是,DeepSeek 3 中的一些细节非常出色,我甚至不会惊讶 Meta 会借鉴其中的一些内容,并将其应用到 Llama 模型中。这并不是说他们在复制,而是他们在创新。”相信行内专家的评论更贴近实情。

 

再说今天全世界在美国面前俯首称臣之时,有谁会计较当初美国从欧洲剽窃了多少技术;现在上达权贵富豪下至贩夫走卒,当人们手捧一杯纯清透亮香气扑鼻的英国红茶,享受其中的时候,又有谁会想到英国人鬼鬼祟祟从中国偷窃制茶技术的艰辛过程,NO ONE CARE!  现实世界讲究的是你能够提供什么,我又能够从中得到什么。

 

总的来说,美国专家们对DeepSeek的功能基本认同,但是对其声称只花了600万美元来开发这个模型普遍存疑。Scale AI的亚历山大·王称DeepSeek拥有5万块英伟达H100高端芯片,尽管他们不能公开承认;马斯克多次发表意见,认为DeepSeek 如此低的训练成本是不可能的。我们普通老百姓很难对这样专业性极强的问题做出论断,但是从“常识”出发还是可以看出其中的端倪。虽然说杭州的研发成本肯定会比硅谷要低得多,但600万美元在悉尼只是买一套好房子的钱,想凭此训练出一个世界一流的人工智能模型出来,这显然是不可能的,这个牛吹的太大了。自从宋襄公信守诺言被打得大败之后,只有为了达到目的不择手段的人才能在中国立足,谎报数据更是小事一桩。谁也不知道DeepSeek到底用了几块英伟达芯片,不过在美国严密封禁之下,DeepSeek又是如何拿到英伟达的高端芯片,这也许是一个永远不会曝光的秘密。

 

相对于ChatGPT的闭源,DeepSeek的开源也引起了广泛的关注,Meta首席AI科学家Yann Lecun表示,DeepSeek-R1面世与其说意味着中国公司在AI领域正在超越美国公司,不如说意味着开源大模型正在超越闭源。“DeepSeek会从开放研究和开源中获利,可能会类似Meta的PyTorch和Llama。他们提出新想法,并在别人的工作基础上实现。因为他们的工作是公开和开源的,每个人都能从中获利,这就是开放研究和开源的力量。” 因为历史的经验证明,一个好的开源模型会吸引全世界的AI工作者在这个基础上开发,这个模型的拥有者可以借此掌控全球AI开发者的心智和生态系统,使国家能够拥有更少的资源来独立发展强大的AI能力,这种发展无疑可以改变技术领域的国际关系和竞争平衡。亚拉文·斯里尼瓦斯认为“如果整个美国AI生态系统都依赖于中国的开源模型,那将是非常危险的......人们曾质疑是否应该信任扎克伯格,但现在的问题是,我们是否应该信任中国?”这应该就是美国人开始担心国家安全的原因。

 

DeepSeek的问世,无疑搅了美国人的一朝春梦,人工智能的垄断可能就此被打破,游戏规则也很可能就此被改写。当然到目前为止,这一切仅仅是可能而已,中国人对此有着清醒的认识。DeepSeek创办人梁文锋在1月20日下午成为中国总理李强的座上宾,参加了中国国务院总理座谈会。梁文锋在会上说:“尽管中国企业正努力追赶,但美方限制先进芯片出口中国仍是瓶颈。”同时清华大学计算机系副教授刘知远指出,“AGI新技术还在加速演进,未来发展路径尚不明确。我们仍在追赶阶段,已经不是望尘莫及,但也只能说是望其项背”,“在别人已经探索出来的路上跟随快跑是相对容易的,接下来我们要面对一团未来迷雾。” 

 

OpenAI的首席执行官萨姆·奥尔特曼(Samuel Harris Altman)去年访问印度时,曾傲慢地宣称“在训练基础模型方面与我们竞争完全没有希望”、“不应该尝试(竞争)”、“你能做的也就尝试而已”,把软件能力比中国还要厉害,本应该率先搞出AI模型的印度人吓唬的心灰意冷。虽然现在中国人依然处于追赶阶段,但是DeepSeek的发布,已经成功激起了印度人的攀比之心,印度通信以及电子和信息技术部长阿什维尼·瓦伊什瑙表示自己会亲自领军来建立本地化AI模型;英国议会也开始讨论建立自己的AI模型。事实上,DeepSeek的AI模型打破了全世界对财大气粗美国巨头的迷信,AI模型从此变得不再高不可攀,相信从今以后会有更多的国家加入研发人工智能的行列,美国赢家通吃的局面开始动摇,全世界的AI用户都将从中受益匪浅,也许这才是DeepSeek对人类最大的价值所在。

 

[ 打印 ]
阅读 ()评论 (0)
评论
目前还没有任何评论
登录后才可评论.