正文

谷歌重回铁王座!Gemini 3吊打GPT-5,奥特曼发信承认技不如人

(2025-11-22 03:23:38) 下一个

两年时间,谷歌从被OpenAI按在地上摩擦,到用Gemini 3.0 Pro把「落后」两个字彻底撕碎,狠狠甩了奥特曼一脸。AI江湖的王座,谷歌终于还是坐实了!
最近谷歌的Nano Banana Pro和Gemini 3,大家都玩嗨了吧~

就连奥特曼都在全员信中承认,谷歌已经「反超」。

可以说,年底这波大招,成功地「让谷歌再次伟大」!

尤其是Nano Banana Pro展现了生成式AI技术的重大突破。

所有人都赞不绝口,很多大佬都成了自来水,比如Shopify的CEO直夸Nano Banana Pro简直疯狂!

谷歌这把王座,基本是坐稳了。

回看这个11月,全球科技格局经历了一场剧烈的板块漂移,准确地说,是在谷歌和OpenAI之间。

两家产品都是密集发布,GPT-5.1、Gemini 3,你方唱罢我登场。

在经历了长达三年的被动防御战,谷歌以一种近乎挑衅的自信姿态重回人工智能霸主的地位!

上个月,作为对手的奥特曼告诉OpenAI的同事们:

谷歌最近在AI方面的进展可能会「给我们公司带来一些暂时的经济阻力」。

谷歌这把王座,基本是坐稳了。

回看这个11月,全球科技格局经历了一场剧烈的板块漂移,准确地说,是在谷歌和OpenAI之间。

两家产品都是密集发布,GPT-5.1、Gemini 3,你方唱罢我登场。

在经历了长达三年的被动防御战,谷歌以一种近乎挑衅的自信姿态重回人工智能霸主的地位!

上个月,作为对手的奥特曼告诉OpenAI的同事们:

谷歌最近在AI方面的进展可能会「给我们公司带来一些暂时的经济阻力」。

身价千亿创始人
亲自下场修配置

如果说劈柴是谷歌AI转型的执行者,那么联合创始人谢尔盖布林(Sergey Brin)的回归则是这场变革的精神图腾。

据外媒报道,布林早已重返谷歌山景城总部。

他并没有选择坐在高管套房里,而是直接入驻了被称为「Building 43」的工程中心。

X的网友将布林的回归定义为:谷歌在一年内从「远远落后」到「轻松称霸」。

这个观点引发了社区广泛的讨论!

网友迅速从嗨到不行的状态立马上升到哲学层面:谷歌怎么一下子能做出两个这么厉害的产品?

一个观点是,谷歌在技术上从未落后,但是谷歌得了一个病:「大公司病」。

OpenAI作为创业公司,加上奥特曼的激进战略,OpenAI一直敢于发布产品,即使市场认为这个产品并不完美。

而布林的回归和影响力,正是打破了谷歌的这种僵局。

这充分展示了强大领导力的重要性。

甚至有网友认为,如果不是创始人打通了谷歌部门之间的壁垒,Gemini 3或者Nano Banana Pro并不会以「全面出击」的方式上线。

作为谷歌的创始人和图腾人物,谢尔盖放弃退休后在私人小岛享受生活。

而是脚踏实地的重返硅谷,拯救谷歌。

布林的回归不是为了发表愿景演讲,而是为了写代码。

据说,他回到谷歌后提交了多年来的第一个CL(Changelist,谷歌内部的代码修改请求),这一行为在工程师内部产生了地震般的效应:

如果身价千亿的创始人都在修补配置文件,那么任何产品经理都没有理由以「流程」为借口阻碍发布。

布林的存在直接催化了Gemini 3项目的加速,他专注于解决模型在长逻辑链推理上的「长尾问题」,这是之前职业经理人们因追求短期指标而忽视的领域。

很多网友表达了类似的看法。

谷歌太强,也太大,它得了大公司病,到处是繁文缛节。

但布林的回归,让谷歌再次成为一家AI时代的「创业公司」。

创始人的回归,不仅重塑了文化。

有网友说,谷歌将所有人工智能相关工作整合到哈萨比斯旗下的DeepMind也是至关重要的一步棋。

这里就有人问了,创始人虽然具有图腾般的象征和号召力,但是他有实权吗?

最有名的独立开发者levelsio给出了答案:

谢尔盖布林与拉里佩奇仍共同持有Alphabet的股份。

更重要的是,他们共同持有87.4%的B类投票股,这赋予了他们51.4%的总投票权

想象一下,当谷歌的官僚体系(他们确实存在不少)试图阻碍你时,有谢尔盖站在你这边只需给他发条消息,就能获得通行许可。

这相当于获得了一张创新的通行证:你可以自由创造任何产品、发布任何功能、推出任何项目,几乎不受限制。

这让谷歌重新像一家小型初创公司那样运作,我认为这正是他们再次取胜的原因

虽然这波谷歌有望重夺王座,但是在此前面对OpenAI时,谷歌一度掉以轻心。



拉响红色警报
AI部门紧急重组

起初,ChatGPT刚出来时,谷歌并没有放在眼里

这不就是我们自己玩过的LaMDA吗?

那个内部跑过、甚至把一个工程师忽悠到以为它有意识、但死活没敢放出来的生成式AI聊天机器人。

谁也没想到,ChatGPT眨眼间就成了史上增长最快的消费级产品,甚至还能替代搜索引擎拿来查资料、做研究。

这时谷歌才反应过来:坏了,真要出大事了。

虽然没人正式喊,但公司里实质上已经「code red」了。

于是,谷歌赶紧把自家两个最强的AI实验室缝在了一起谷歌DeepMind由此诞生。

从追赶到碾压,谷歌王者归来

这次合并把DeepMind在强化学习、神经科学启发AI上的深厚积累,和谷歌Brain在大规模机器学习系统上的优势完美结合,直接加速了顶级模型的研发。

Gemini正是合并之后,第一个落地的大项目。

它从设计之初,便坚定地走上了原生多模态路线,而不是在单模态模型上后期缝补,从而彻底避开了GPT-4等竞品的后天短板。

同时,也完全由谷歌自研的TPU进行训练。

2023年12月6日,第一代Gemini正式发布。

Gemini 1.0共有三大版本:Gemini Ultra、Gemini Pro、Gemini Nano,其中Pro和Ultra支持最长32k token上下文。

作为当时谷歌最强大的模型,Gemini Ultra在MMLU拿下90.0%,数学(MATH 53.4%)和视觉问答等多项榜单碾压GPT-4。

2024年2月15日,Gemini 1.5发布。

上下文窗口直接拉到100万token(Pro),性能追平甚至超Gemini 1.0 Ultra,但算力需求更低。同时,新增Gemini 1.5 Pro和Gemini 1.5 Flash。

2024年6月,谷歌再次将Pro的上下文窗口,提到了惊人的200万token。

2024年9月24日,Gemini 1.5 Pro-002和Flash-002上线,更成熟、更便宜

2024年12月11日,Gemini 2.0亮相,主打「agentic」能力,原生支持实时音视频流,新推出Multimodal Live API。

2025年2月,谷歌带来了更快Flash-Lite和Pro Experimental,并且还新增了Thinking Mode推理过程完全可见。

2025年3月25日,Gemini 2.5以Pro Experimental首秀。

谷歌称,这是迄今最聪明的模型,内置超强推理、编程、多模态复杂任务能力无敌。

2025年6月17日,2.5 Pro与Flash全面开放,支持企业级高吞吐。

2025年10月7日,Gemini 2.5 Computer Use上线,专攻浏览器操控,在手机UI控制上也极具潜力,把整条产品线的智能体能力又拉高一个台阶。

2025年11月18日,全新亮相的Gemini 3.0 Pro和Gemini 3.0 Deep Think,直接成了2025年11月最猛的现役模型。

一上线,Gemini 3.0 Pro就在20个基准测试里狂砍19胜,把一众大模型按在地上摩擦。

尤其是在Humanitys Last Exam上,它凭借着41%的准确率把OpenAI的GPT-5 Pro(31.64%)打得满地找牙。

模型核心设计原则

正如前面提到的,Gemini全系列从零开始联合训练,原生多模态,训练数据直接覆盖文本、图像、音频、视频,能轻松处理各种模态混排输入输出。

这种天生多模态设计彻底甩开后期改造的老路子,自然涌现出了跨模态推理能力,比如边看视频边回答文本问题。

架构采用仅解码器Transformer,加入多查询注意力等优化,优先保证泛化能力而非堆砌专用编码器。

效率方面,第一代采用分层设计(Ultra极致能力、Pro平衡、Nano/Flash低延迟设备端)+ 混合专家(MoE)稀疏激活,只点亮当前输入需要的子网络,训练推理都省算力。

Gemini 1.5及2.5则进一步用稀疏MoE Transformer,把上下文窗口标配做到100万token,几小时视频也能轻松吃下。

CEO也有功劳?

除了创始人回归,谷歌本身内部的快速迭代。

很多人也忽略现在CEO 劈柴的能力。

正如很多人在3年前将谷歌的落后归咎于劈柴,却不敢承认,正是劈柴让谷歌重回正轨,并完成对OpenAI的超越。

劈柴在2015年接任CEO时,被视为硅谷最完美的职业经理人:温和、外交手腕高超、善于达成共识。

在移动互联网的红利期,这些特质确保了谷歌这艘巨轮的平稳航行。

然而,当2022年AI军备竞赛爆发,这种「和平时期」的领导风格迅速成为众矢之的。

但今天外媒BI的一篇文章,深入分析了劈柴在谷歌这波逆袭中扮演的重要角色。

像Gemini 3这样强大的产品需要多年时间、大量技术研究和底层架构才能实现。

谷歌在这方面已深耕许久,正是因为劈柴推动公司转向「AI优先」理念也已近十年。

如今这些努力终于结出硕果。

背景故事:

2017年,谷歌的汉堡emoji把奶酪放在肉饼下面,瞬间全网炸锅。这直接引发了一场又好笑又撕裂的互联网大战,大家疯狂争论「正确」的汉堡该怎么叠。

皮查伊当时发推调侃:你们要是能统一意见,我就放下手头一切马上修。结果大家真的统一了,Android没几天就更新,把奶酪挪到了肉饼上面。

现在看来,Gemini 3.0也完美遵守了这个「正确顺序」。

算力不够用
容量必须每6个月翻一番

谷歌这波成功,除了在战略和文化上,被「创始人模式」带飞了一波。

但千万不要忽略最根本的原因,谷歌的算力!

即使布林给所有谷歌工程师都打了「鸡血」,没有算力一切都白搭。

这就要归功于谷歌的TPU了。

本月早些时候的全体员工大会上,谷歌AI基础设施负责人Amin Vahdat直接说:公司必须每六个月就把服务容量翻一倍,才能满足人工智能服务的需求。

据CNBC报道,这位谷歌Cloud副总裁还放了幻灯片,上面写着未来4-5年要实现「1000倍」扩展。

支撑这1000倍增长的核心,是谷歌在2025年发布的第七代张量处理单元(TPU),代号「Ironwood」。

这款芯片不仅是硬件的迭代,更是谷歌垂直整合战略的巅峰之作。

千倍扩展的难题
目前AI最大的瓶颈就是英伟达GPU产能跟不上。

几天前英伟达财报电话会上还说AI芯片「卖到断货」,数据中心收入单季暴增100亿美元。

芯片和其他基础设施限制直接影响谷歌新AI功能上线。

11月6日的全体大会上,劈柴举了上个月刚升级的视频生成工具Veo的例子:

「Veo刚出来的时候多令人兴奋啊,如果能在Gemini App里放开给更多人用,用户量肯定爆,但我们就是给不了算力根本不够。」

虽然哪家AI公司都缺算力,但是相比OpenAI,谷歌TPU正是他们制胜的法宝。

谷歌的「1000倍」算力扩张揭示了一个残酷的现实:AI行业正在经历剧烈的阶级分化。

地主阶级: 拥有吉瓦级数据中心和自研芯片的巨头,比如谷歌。他们制定规则,出租算力,收取租金。

佃农阶级: 依赖巨头基础设施构建应用的初创公司。无论他们的模型多优秀,最终的利润大头都将流向基础设施提供商。

因此,这也是为何OpenAI也想要做芯片的根本原因。

从年初的Gemini 2.5到年底的Gemini 3,如果单从版本号来看,谷歌的行动可以说缓慢至极。

关于GPT-5和Gemini 2.5谁更好用的话题也是经久不衰。

但是随着Gemini 3、Nano Banana Pro的出世,所有人都突然回过神来,谷歌还是那个谷歌,谷歌还是SOTA!

这里面既有创始人放弃私人小岛重回一线的魄力,也有谷歌TPU多年来的厚积薄发。

作为AI领域唯一一家技术全栈的科技公司,让我们期待一下2026年,Gemini 4甚至Gemini 5能否让我们看到AGI的曙光。

[ 打印 ]
评论
目前还没有任何评论
登录后才可评论.