正文

谷歌训出Gemini 3的TPU,已成老黄心腹大患

(2025-11-25 06:28:51) 下一个

扎克伯格的算盘

与几十亿美金的赌注

Meta正在与谷歌进行一场可能改变行业格局的谈判。

消息人士称,这家社交巨头考虑斥资数十亿美元,在2027年将谷歌的TPU芯片引入Meta自己的数据中心。

这是一个重要信号。

长期以来,外界普遍认为只有英伟达的GPU才能胜任最前沿的模型训练,而其他芯片只能做做推理。

但随着谷歌最新大模型Gemini 3的发布,这种偏见正在瓦解。

Gemini 3在技术上抹平了与OpenAI的差距,而它完全是在TPU集群上训练出来的。

Meta显然看懂了这一点。

他们除了谈租用,更多在谈「私有化部署」。

对于拥有海量敏感数据和极高合规要求的巨头来说,把芯片锁在自家机房里,显然比在公有云上裸奔更有安全感。

硬碰硬:Ironwood TPU v7

vs. Blackwell B200

让谷歌敢于走出云端、直面英伟达的底气,源自其硬件实力的惊人进化。

如果我们剥开市场营销的迷雾,单纯看硅片上的参数,会发现这不再是一场不对称战争。

最新的谷歌Ironwood TPU v7与英伟达目前的旗舰Blackwell B200在核心指标上几乎处于同一水平线,甚至在某些维度上形成了镜像般的对标。

算力对轰:在关键的FP8精度下,Ironwood TPU v7的峰值算力约为4.6PFLOPS,而英伟达B200为4.5 PFLOPS。谷歌不仅没输,甚至还以微弱优势险胜。

显存平手:两者均配备了192GB的HBM3e高带宽内存。对于受限于显存容量的大模型训练来说,谷歌并没有让英伟达拉开半个身位。

互联架构:虽然英伟达有NVLink,但谷歌的ICI(芯片间互联)技术让Ironwood在单Pod内能以9.6 Tb/s的带宽连接数千颗芯片,这种极其高效的扩展性正是Gemini模型能迅速迭代的秘诀。
这意味着,对于Meta这样的客户而言,选择TPU不再是为了省钱而做的「降级消费」,而是一种真正的「平替」,甚至是在大规模集群效率上更优的选择。

拆除CUDA护城河

英伟达最深的护城河是CUDA软件生态。

谷歌深知这一点,因此它并没有强推自己的JAX语言,而是拥抱了Meta发明的PyTorch。

通过新开发的「TPU Command Center」软件,谷歌正在让开发者能够像使用GPU一样顺滑地通过PyTorch调用TPU。

这招非常精明,既利用了Meta的开源遗产,又降低了客户的迁移门槛。

谷歌云的高管们甚至在内部放话,依靠这套组合拳,他们有信心从英伟达口中夺下10%的市场份额。

黄仁勋的反击与焦虑

英伟达显然感受到了背后的呼吸声。

市值4.44万亿美元的世界第一股市霸主并没有坐以待毙。

最近几个月,黄仁勋频繁出手,通过对OpenAI、Anthropic等明星初创公司的巨额投资,换取他们对英伟达GPU的长期承诺。

就在谷歌宣布向Anthropic提供TPU算力后不久,黄仁勋也迅速跟进了一笔数十亿美元的投资。

谷歌也开始模仿英伟达的「钞能力」策略。

今年夏天,谷歌与云服务商Fluidstack达成协议,甚至承诺在对方无法支付数据中心租金时提供高达32亿美元的「兜底」。

这种激进的财务手段,以往通常是英伟达用来绑定CoreWeave等核心伙伴的专利。

黄仁勋曾在最近的一次播客中罕见地向对手致意:「谷歌已经做了七代TPU,我们必须给予应有的尊重。」

这份尊重背后,或许更多的是警惕。

当市场开始意识到TPU v7的性能足以比肩B200,当Meta这样的巨头开始尝试「去英伟达化」,这场芯片战争就不再是英伟达的独角戏了。

垄断总是伴随着一种令人沉醉的舒适感,但历史告诉我们,当唯一的卖铲人开始感到背后的呼吸声,这场淘金热才算真正进入了高潮。

[ 打印 ]
评论
目前还没有任何评论
登录后才可评论.