
过去两年,AI 基础设施最直观的叙事是:谁能拿到更多英伟达 GPU大盘配资,谁就能跑得更快。
这句话到今天依然成立。但问题也越来越清楚——头部云厂商已经不满足于只做“买卡的人”了。
Google 最近把与 Broadcom 的定制 AI 芯片合作签到了 2031 年;Anthropic 还将从 2027 年开始获得大约 3.5 吉瓦、基于 Google AI 处理器的算力。几乎同一时间,Uber 也宣布把一部分业务计算和 AI 模型训练放到 AWS 的 Graviton 与 Trainium 上。把这些信号放在一起看,你会发现一个越来越清晰的趋势:Google、AWS、Microsoft、Meta 这些平台型公司,正在一边继续拥抱英伟达,一边加速把自研芯片做成自己的第二条主航道。
如果只把这件事理解成“去英伟达化”,就看浅了。真正发生的,是云厂商正在把 AI 时代最核心的生产资料——算力——从外部采购品,重新变成自己可以定义、可以优化、也可以议价的内部能力。
核心判断
第一,自研芯片不是为了立刻替代英伟达,而是为了避免被单一供应商定义全部利润结构。第二,最先被自研芯片拿下的,不是所有工作负载,而是那些可标准化、可重复、可规模化的训练与推理任务。第三,真正决定胜负的,不再是单颗芯片的参数对比,而是芯片、网络、散热、调度、框架与客户workload 的系统级协同。
一|云巨头为什么越来越不愿意“只买英伟达”了?
先把一个前提说清楚:英伟达依然是今天AI 基础设施里最强、最通用、最成熟的那套选择。无论是模型训练、复杂推理,还是面对海量外部客户的通用算力供给,英伟达的生态、工具链和兼容性,短期内都很难被彻底替代。
但也正因为如此,任何一家头部云厂商都不会愿意把自己的未来完全交给单一供应商。
原因并不复杂。第一,成本压力会越来越重。市场之所以追逐定制芯片,一个很现实的原因就是要寻找高价GPU 之外的替代路径。第二,供给与路线图会被外部厂商牵着走。对于超大规模云厂商来说,最核心的基础设施如果完全建立在别人定义的节奏上,战略上天然是不舒服的。第三,差异化会被削弱。如果所有人都买同一套芯片、跑同一套软件栈、卖同一类实例,云厂商最终更像“转售商”,而不是平台定义者。
所以再看Google 与 Broadcom 把合作拉长到 2031 年,这件事就不只是“买几代芯片”的问题了。它更像是一次长期产能、长期架构、长期服务能力的绑定。Broadcom 不只是为 Google 供货,而是在参与 Google 下一代 AI 机架与 TPU 路线的共同设计。
Uber 使用 AWS 自研芯片也是同样的逻辑。Uber 不是不知道英伟达强,而是在更现实地做取舍:并不是所有 workload 都需要最通用、最顶格的 GPU。对于一部分业务来说,更好的价格性能比、更多的资源可得性,以及更贴近云平台自身服务体系的工具链,反而更重要。
说得更直白一点:在AI 时代,云巨头不想永远做“英伟达的二级经销商”。
二|自研芯片最先吃掉的,不是全部算力,而是“稳定的大单”
很多人一看到Google TPU、AWS Trainium、Azure Maia,就会自动联想到一个结论:它们是不是要全面替代 GPU?
答案恰恰不是。
自研芯片最强的地方,不在于它一上来就能把所有场景都打穿;它真正擅长的,是先把那些足够大、足够稳定、足够重复、足够容易做软硬协同优化的工作负载吃下来。
Google 的路径就很典型。Google Cloud 明确说过,像 Gemini、Veo、Imagen 这样的前沿模型,训练和服务都建立在 TPU 之上。Google 真正想做的,不是单纯卖一块芯片,而是把 TPU、网络、调度、软件框架和消费模型一起打包进 AI Hypercomputer 这套体系里。换句话说,Google 卖的表面上是 TPU,实际上卖的是一整套可规模复制的 AI 基础设施方法论。
AWS 的路径也一样清晰。AWS 官方给出的说法非常直接:Trainium2 对比 GPU 型 EC2 P5e、P5en 实例,可以做到 30%—40% 更好的价格性能比;它又通过 NeuronLink、EFA 网络和 Neuron SDK,把芯片、服务器、集群与开发体验连成了一体。对云厂商来说,这意味着只要某类训练或推理任务足够稳定,就有机会把原本依赖外部 GPU 的成本结构,逐步迁移到自己可控的栈上。
Meta 的 MTIA 进一步说明了这条路线最适合什么场景。Meta 自己说得很坦白:MTIA 主要优化的是排序与推荐推理,并且已经在数据中心里大规模部署。也就是说,自研芯片并不是先去挑战最难、最通用、变化最快的所有任务,而是优先去吃下那些最容易形成规模优势的内部核心负载。
这也是为什么Anthropic 的现实选择很有代表性。今天的头部模型公司,并不是“全世界都只剩一种芯片”的单选题,而更像是一个按照 workload 类型切分的组合世界:谁更适合训练,谁更适合推理,谁更适合内部服务,谁更适合对外出租,谁的工具链迁移成本更低,谁就会拿下那一部分订单。
所以,自研芯片不是从“全面替代”开始的,而是从“先拿下最稳定、最值钱、最能规模化复用的那部分”开始的。
三|真正的战场不是芯片,而是“芯片 + 系统”
如果说很多人的第一层理解还停留在“Google 也有芯片,AWS 也有芯片”,那么更深一层的问题是:为什么这些云巨头现在都在强调系统级协同?
因为AI 基础设施越往后走,单颗芯片本身的重要性,反而越不够解释全部竞争力。
Google 在谈 Ironwood TPU 时,把话说得非常明白:Agentic workflows 的兴起,以及通用计算与机器学习加速之间更紧密的协同需求,正在为定制硅与垂直优化系统架构创造机会。它展示的不是一颗芯片,而是一整套从板卡、液冷、机架、光互连、调度到数据中心网络的系统。按照 Google 的说法,Ironwood 最多可以在一个 superpod 里直接连接 9,216 颗 TPU,再通过更大的数据中心网络扩展到数十万颗芯片级别的集群。
AWS 也是一样。Trainium2 的价值,并不只在芯片本身,而在于它被放进了 Trn2 实例、Trn2 UltraServers、EC2 UltraClusters、EFA 网络和 Neuron 软件栈这整条链路里。官方材料显示,Trn2 UltraServers 可以把 64 颗 Trainium2 芯片通过 NeuronLink 连成一个系统,提供最高 83.2 petaflops 的 FP8 算力。这个时候你就会明白:云厂商真正想定义的,不是一块芯片,而是一种把芯片变成云服务的能力。
图3|Google 展示的 Ironwood 板级与液冷/系统设计。定制芯片的竞争,越来越是系统工程竞争。图源:Google Cloud
Microsoft 对 Maia 的表述也很有代表性。它不是把 Maia 说成“一颗自研 AI 芯片”,而是明确把这条路线概括为“from silicon to software to systems”。从芯片封装、机架级供电、闭环液冷,到 PyTorch、ONNX Runtime 这类软件适配,微软强调的是整套链路的共同演进。意思非常清楚:在 AI 时代,单点参数领先不够,系统整体效率、整体成本和整体可用性,才是决定平台竞争力的关键。
这背后还有一个更容易被忽略的变化:软件迁移门槛正在被刻意做低。
Google 在 PyTorch/XLA 2.5 中提到,开发者已经可以用实验性的 vLLM on TPU,并且把已有 vLLM endpoint 切到 TPU,只需要做少量配置变更;AWS 则强调 Neuron 对 PyTorch、JAX 以及 Hugging Face 等生态的原生支持。为什么这件事重要?因为自研芯片真正难的,从来不是流片成功,而是能不能让开发者用起来不痛苦、让客户迁移成本足够低、让服务团队大规模交付时不出问题。
谁能把“硬件能力”真正做成“服务能力”,谁才有机会把自研芯片变成一条长期生意。
四|这不是“英伟达失势”,而是云厂商在搭建“双轨制”
最容易犯的错,就是把这轮自研芯片潮理解成“英伟达要不行了”。
现实刚好相反。
Google 一边推进 TPU 和 AI Hypercomputer,一边又在 2026 年 GTC 期间继续扩大与 NVIDIA 的合作,扩展 G4 VM、分片 GPU、以及后续对 Vera Rubin NVL72 的支持。AWS 也是同一套逻辑:它在推进 Trainium 的同时,依然推出了基于 NVIDIA GB200 NVL72 的 P6e-GB200 UltraServers,而且明确把它定义为 EC2 中最高 GPU 性能的实例选择。
图4|Amazon EC2 Trn2 服务器 sled。云厂商真正要卖的,不是一颗芯片,而是一条可复制的服务能力链路。图源:Amazon Web Services
这说明什么?说明云巨头真正追求的,不是“把英伟达踢出去”,而是建立一套双轨制。
一条轨道,继续拥抱英伟达。因为它依然代表最成熟的通用生态、最广泛的客户兼容性,以及面向前沿模型、开放市场和复杂实验的最高灵活度。
另一条轨道,则是把自研芯片做深。让它承担那些规模足够大、需求足够确定、成本足够敏感、而且能够通过软硬协同不断压缩单位经济成本的任务。
只有把这两条轨道同时跑通,云厂商才不会在AI 时代被迫二选一。
所以,Google、AWS、Microsoft、Meta 当下做的,其实不是一次“背离英伟达”的动作,而是在为自己争取更大的回旋空间:对上,可以提升与芯片供应商谈判时的主动权;对下,可以把不同客户、不同模型、不同任务的需求,分配到最合适的基础设施栈里。
五|最后:云厂商想要的,不只是芯片,而是AI 时代的定义权
如果把时间再往前拨十几年,云计算时代最重要的事,是把CPU、存储、网络虚拟化,然后以更灵活的方式卖出去。
而到了AI 时代,事情变了。
云厂商不再满足于只提供“别人发明好的算力”。它们想要的是从芯片,到机架,到网络,到调度,到框架,再到客户 workload 的整套定义权。因为只有掌握这套定义权,才能真正决定成本结构、服务形态、交付效率和利润分配。
这也是为什么今天看起来像是一场“芯片竞赛”的事,实际上越来越像一场基础设施工业能力竞赛。
英伟达当然还会继续强,而且短期内依然强得惊人。但真正值得关注的变化,已经不是“谁能替代英伟达”,而是云巨头已经不愿意只做英伟达的客户了。
它们要做的,是在继续购买英伟达的同时,把自己也变成AI 时代的芯片玩家、系统玩家、平台玩家。
这才是这轮自研芯片潮最重要的底层逻辑大盘配资。
汇盈配资提示:文章来自网络,不代表本站观点。