投资随想

投资点点滴滴,在投资的道路上与大家共同学习
正文

投资于AI供应链 2 — 定制 AI 芯片设计公司的竞争格局

(2025-08-04 20:16:19) 下一个

为什么需要定制 AI 芯片?

随着生成式人工智能和大模型训练的爆发式增长,大型云服务商开始尝试自研和委托定制芯片来降低成本、提高能效并控制供应链。这些**定制 ASIC(应用专用集成电路)**针对推理、推荐系统和特定的 AI 工作负载进行了优化,能够在功耗和延迟方面显著优于通用 GPU。它们并不是要完全取代 GPU,而是为了在某些应用中提供更具成本效益的解决方案,并减少对英伟达等供应商的依赖。下面分析几家重要的定制芯片供应商及云计算平台的财务状况和竞争优势。

Broadcom:专为云巨头设计的定制 ASIC

  • 财务表现:2024 财年 Broadcom 营收 516 亿美元,同比增长 44%,其中半导体业务 301 亿美元,AI 相关收入达到 122 亿美元,较上年增长 220 %investors.broadcom.com。2025 财年第一季度(截至 2025 年 2 月 2 日),总收入 149.16 亿美元,同比增长 25%;GAAP 净利润 55.03 亿美元;调整后 EBITDA 100.83 亿美元,占收入的 68 %investors.broadcom.com。第一季度 AI 半导体收入 41 亿美元,同比增长 77 %investors.broadcom.com

  • 护城河与战略:Broadcom 利用多年积累的 ASIC 设计 IP 和信号处理技术,为 Google、AWS、Meta 等云厂商开发定制训练加速器和高性能网络芯片。例如,2024 财年公司在 AI 领域取得 122 亿美元收入,CEO Hock Tan 预测到 2027 年 AI 芯片需求的服务市场规模可达 600 亿至 900 亿美元reuters.com。Broadcom 拥有 70 %的自定义加速器市场份额,并与台积电等制造伙伴紧密合作,形成技术和供货双重优势。

  • 增长前景与挑战:公司预计 2025 财年第二季度 AI 半导体收入将达到 44 亿美元investors.broadcom.com。但由于过度依赖少数云客户,毛利率和订单周期易受资本支出波动影响;同时,英伟达、AMD 也在提供更灵活的 GPU 解决方案,可能压缩定制 ASIC 的扩展空间。

Marvell:以互连和光模块为优势的合作伙伴

  • 财务表现:2025 财年 Marvell 总收入 57.67 亿美元,但 GAAP 净亏损 8.85 亿美元,主要因收购相关摊销费用;非 GAAP 净利润 13.77 亿美元prnewswire.com。第四季度收入 18.17 亿美元,同比增长 27%,GAAP 毛利率 50.5%,非 GAAP 毛利率 60.1%prnewswire.com。数据中心业务在本季度收入同比增长 78 %prnewswire.com

  • 定制化优势:Marvell 的专长在于高速以太网交换芯片、光学 DSP、PCIe 转接器等互连产品,并提供定制 AI 加速器。2024 年 12 月,公司与 AWS 签订 5 年多世代合作协议,为 AWS 提供定制 AI 产品、光模块、PCIe 转发器、数据中心互连模块和以太网交换芯片storagenewsletter.com。通过与 AWS 合作进行云端 EDA,Marvell 可利用 AWS 的弹性算力加速其芯片设计storagenewsletter.com

  • 增长前景与挑战:CEO Matt Murphy 表示定制 AI 芯片计划已进入量产阶段,并获得多项新设计订单prnewswire.com。公司预计 2026 财年第一季度收入同比增长超过 60 %prnewswire.com。然而其规模和研发投入远低于 Broadcom,且仍然依赖外部制造,未来需继续扩大客户基础以提升盈利性。

Amazon Web Services (AWS):自研 Trainium/Inferentia 降本增效

  • 财务表现:2025 年第一季度,Amazon 总销售额 1557 亿美元,同比增长 9%;AWS 部门销售额 293 亿美元,同比增长 17%;AWS 的营业收入 115 亿美元,高于去年同期的 94 亿美元sec.gov。公司整体净收入 171 亿美元sec.gov

  • 自研芯片与生态:AWS 推出了 Inferentia、Trainium 和 2024 年 12 月发布的 Trainium2 芯片。根据报道,Trainium2 提供比当前 GPU 实例30–40 % 更高的性价比datacenterknowledge.com。每个 Trn2 EC2 实例由 16 颗芯片组成,峰值算力 20.8 PF;Trn2 UltraServer 将 64 颗芯片组合,峰值算力达到 83.2 PFdatacenterknowledge.com。AWS 与人工智能公司 Anthropic 合作打造 “Project Rainier” 集群,部署数十万颗 Trainium2 芯片,提供前代系统 5 倍的算力datacenterknowledge.com。Trainium3(3 nm)计划 2025 年末发布,性能将提升 4 倍且能效提升 40 %datacenterknowledge.com

  • 竞争定位:通过自研芯片,AWS 能为客户提供比 Nvidia GPU 更低成本、能耗更优的训练与推理选项datacenterknowledge.com。但 AWS 仍同时采购 Nvidia H100/H200 和 AMD MI300X GPUnews.microsoft.com。自研芯片目前主要服务于内部和特定客户如 Anthropic,其生态与 CUDA 相比仍在早期发展。

Google/Alphabet:TPU 与全面的 AI 堆栈

  • 财务表现:Alphabet 2025 年第一季度总收入 902.34 亿美元,同比增长 12%;Google Cloud 收入 122.6 亿美元,同比增长 28 %,推动云业务运营利润从 9 亿美元增至 21.77 亿美元sec.govsec.gov。公司整体净利润 345.4 亿美元,运营利润率由 32 % 提升至 34 %sec.gov

  • 自研 TPU 的协作与挑战:Google 自 2017 年起推出 Tensor Processing Unit(TPU),用于训练和推理。多代 TPU 均由 Broadcom 提供设计和芯片工程支持。2023 年 9 月,媒体报道称 Google 可能寻求新供应商以降低成本,但 Google 发言人表示与 Broadcom 的合作“不变”reuters.com。近期也有消息称 Google 正与 MediaTek 合作设计低成本的推理芯片,但尚未证实。总体来看,Google 依赖 Broadcom 提供定制 ASIC,同时仍采购 Nvidia GPU 满足高端训练需求。

Meta:降低成本的自研训练芯片

  • 战略与发展:Meta 正测试首款内部 AI 训练芯片,旨在减少对 Nvidia GPU 的依赖。报道称,这款芯片是专用训练加速器,可降低 AI 基础设施成本,公司计划先用于推荐系统,再扩展到生成式 AIreuters.com。Meta 正与台积电合作生产芯片,并计划 2026 年起广泛使用reuters.com。2025 年 Meta 预计总支出 1140–1190 亿美元,其中资本开支最高 650 亿美元 用于 AI 基础设施reuters.com。这显示公司对内部芯片的长期投资,但因技术路线不确定,仍需大量采购 Nvidia GPU,短期内对供应链影响有限。

Microsoft:推出 Maia 加速器与 Cobalt CPU

  • 战略与产品:微软在 2023 年底发布了两款定制芯片:Azure Maia AI 加速器(面向大模型训练和推理)和 Azure Cobalt CPU(基于 Arm,面向通用工作负载)。这两款芯片计划在 2025 年初部署到微软数据中心,用于支持 Copilot、Azure OpenAI Service 等服务news.microsoft.com。微软强调通过自研芯片和定制服务器、冷却系统实现“从硅到服务”的垂直整合,优化能效和性能news.microsoft.comnews.microsoft.com

  • 与合作伙伴的关系:微软同时在 Azure 上提供 Nvidia H100/H200 GPU、AMD MI300X 加速器等产品线news.microsoft.com。OpenAI 参与了 Maia 芯片的设计测试,微软表示通过与 OpenAI 协同可以优化模型训练并降低成本news.microsoft.com。这种双轨策略确保客户拥有不同价格和性能组合的选择。

定制 ASIC 与 Nvidia/AMD 的竞争与互补

  1. 市场份额与差异:定制 ASIC 主要针对固定的推理或推荐任务,其能效和成本优势明显,但通用性不如 GPU。根据分析,GPU 仍然控制 2025 年约 90 %的训练市场,而 ASIC 在推理市场占比约 20 %,并持续扩大gilderreport.com。这说明定制芯片是对英伟达 GPU 的补充,而非完全替代。

  2. 软件生态:Nvidia 的 CUDA 平台和 cuDNN 库是其护城河;AMD 提供 ROCm 和 open-source 软件生态。定制芯片通常需要云厂商自行维护编译器和框架,如 AWS Neuron、Google XLA/TPU 软件栈,这提高了迁移成本并限制了普遍采用。

  3. 供应链合作:虽然 AWS、Google、Meta 和 Microsoft 都在自研芯片,但仍依赖 Broadcom、Marvell 等第三方进行 ASIC 设计和网络互连,同时依赖台积电等先进制造节点。Meta 与台积电合作生产芯片reuters.com,Google 的 TPU 由 Broadcom 设计制造reuters.com。这使定制芯片生态与传统半导体供应链紧密相连。

总结与展望

定制 AI 芯片正在成为云巨头优化成本和性能的关键战略。Broadcom 通过为 Google、AWS、Meta 等客户提供定制 ASIC 和网络芯片,已成为最大的外部供应商;2024 财年 AI 收入 122 亿美元,公司的长期目标是抓住 2027 年 600–900 亿美元的市场机会reuters.com。Marvell 的规模较小但在光通信和互连方面具有差异化优势,和 AWS 签订了五年合作协议storagenewsletter.com

云厂商方面,AWS 推出 Trainium 系列芯片,通过更高的性价比吸引客户,同时保持对 Nvidia 和 AMD GPU 的采购;Google 通过 TPU 等内部设计满足训练和推理需求,并继续与 Broadcom深度合作reuters.com;Meta 计划 2026 年前后启用自研训练芯片以降低成本reuters.com;微软发布 Maia 加速器并与 OpenAI 合作优化硬件news.microsoft.com

综合来看,定制 ASIC 有望在 AI 推理与垂直应用中迅速增长,但由于软件生态和通用性限制,短期内不太可能撼动 Nvidia 在训练领域的领先地位。投资者应关注 Broadcom 等上游供应商在定制 ASIC 领域的扩张机会,同时注意云厂商在自研芯片和 GPU 双轨策略中的资本支出和盈利平衡。

[ 打印 ]
评论
目前还没有任何评论
登录后才可评论.