谷歌TPU,十年磨一剑

资讯信息 · 2025-11-17

谷歌正式对英伟达亮剑了。


最近谷歌成功挖了英伟达墙角,说服一家英国小型云服务商Fluidstack转用谷歌的TPU。


这单生意没多大,1年最多几亿收入(本文货币单位如无强调均为美元),却让谷歌大涨5000亿,市值正式突破3万亿,相当于8个工商银行。(截至2025.09.15)


为什么一单小生意会撬动这么大市值呢?因为这意味着谷歌十年磨一剑的TPU要利刃出鞘了,出鞘第一剑,先斩皮衣男,谷歌TPU将对英伟达GPU构成重大威胁。


TPU是什么?跟GPU有什么区别?TPU对谷歌、对英伟达乃至对整个AI产业又意味着什么?


嘉宾商学新科技案例100为你揭秘。


1、CPU、GPU与TPU


TPU,Tensor Processing Unit,又叫张量处理器;跟GPU一样,它本质上不是某一类芯片,而是公司为了彰显自家产品很特别、很厉害而起的名。就像AD钙奶并不是一类奶,只是娃哈哈的一款产品。TPU其实是谷歌为自己的深度学习框架TensorFlow设计的专用芯片。


又来了一个专业词汇,专用芯片,ASIC,Application Specific Integrated Circuit。


TPU就是谷歌版的ASIC,像德仪、博通,都是顶尖的ASIC大厂。


那么CPU、GPU、ASIC又有什么区别呢?


CPU是通用计算,各种指令、各种操作都能做,但没有特长;GPU是并行计算或者叫加速计算,一开始是专门做图像渲染的,后来被用来做AI深度学习,不管你是做通用模型还是垂直模型或者Agent,AI相关的都能用;而ASIC是根据用途来给你私人定制,像谷歌的TPU,就是专门为TensorFlow定制的。


这就像公司里的不同角色,CPU是万金油、多面手,什么事都可以交给他,办不砸,但也别指望他出彩;GPU是挖来的大厂高管或者专家,绝对够专业,但成本高,跟你们公司的适应性也有问题;而ASIC是公司培养的985管培生,名校毕业底子好,还是一张白纸进来的,随你怎么画,肯定是最适合公司的。


2、谷歌十年磨一剑


说回谷歌,2013年,谷歌发现用语音搜索和语音识别的人越来越多了,他们算了笔账,如果用户每人每天用3分钟的语音搜索和识别,那谷歌的算力远远不够用,必须再建一个数据中心。


谷歌膀大腰圆,倒是不差钱,但是这样下去不是办法啊,要是以后每人每天用30分钟呢?难道再建10个数据中心吗?


没这么过日子的,得精打细算。


于是,谷歌打上了TPU的主意。


前面说了,TPU属于ASIC,可以私人定制,需要什么功能就给你做什么功能。


而在此之前,他们用的是英伟达GPU,算力确实大,但有点浪费;相比之下,TPU小而精准,从大水漫灌改成针孔滴灌。


具体来说,它采用了软硬件协同的“提前编译”策略。传统芯片需要高能耗的缓存来应对不可预测的数据访问;而TPU是定制的,编译器在程序运行前就规划好了所有数据的路径,这样就不再需要复杂的缓存了,大大提高了效率。


2015年,谷歌第一代TPU问世,搭载在谷歌旗下DeepMind的AlphaGo上,第二年AlphaGo打败李世石,TPU功不可没。之后TPU不断进化,一直为谷歌的AI战略效力。现在谷歌的大模型Gemini主要就是用TPU训练的,算力成本只有OpenAI使用GPU成本的1/5,简直不要太香。


今年,谷歌TPU已经进化到第七代了,代号“Ironwood”。


Ironwood的整体性能跟英伟达的看家产品B200不相上下了,最高配集群有9216个液冷芯片,峰值算力是世界上最大的超级计算机El Capitan的24倍以上。


在此之前,谷歌TPU都是自己消化。70%-80%用在DeepMind、Gemini等自家业务上,剩下的也只租不卖。


而现在,经历十年打磨后,谷歌终于要卖TPU了。预计出货量2025年250万片,2026年超过300万片。


敢报这么大的数,谁给谷歌的勇气?他自有办法。就是挖墙脚。


比如开头提到的Fluidstack,本来人家用英伟达GPU用的好好的,谷歌找上门来说:别光用他们的,哥哥家的TPU也不错!你要不把数据中心扩建一下,装上哥哥的TPU?Fluidstack表示:扩建要租新场地,我没钱。谷歌给出了一个无法拒绝的理由:这是32亿美元,只要听哥的,你就拿去花吧。


不只是Fluidstack,包括AI独角兽Anthropic,最近被发现正在招聘TPU内核工程师;马斯克旗下的X-AI也表现出采购TPU的兴趣。


3、血拼英伟达


甚至有传言说,谷歌可能要让TPU业务独立出来,跟英伟达直接拼刺刀。


花旗银行分析师预测,因为TPU的竞争,预计2026年英伟达GPU销售额要减少120亿。


当然,英伟达的护城河不只是算力,更是整个CUDA生态。经过近20年的建设,CUDA已经聚集了500多万开发者,如果不用英伟达GPU,就要离开CUDA,把代码迁到别的平台,这意味着要重写30%-50%的核心逻辑(例如内存管理、并行优化),同时面临30%-60%的性能损失,迁移成本太大了。


但谷歌也是有备而来,他构建了能在TPU上运行的高性能计算Python库JAX,还发布了模型流水线解决方案“Pathway”,外部开发者用上Pathway,不需要重新设计就能开发Gemini等大模型。过去半年,围绕TPU的开发者活跃度激增96%。


这对英伟达来说是不可接受的威胁。


野村证券预计,到2026年ASIC总出货量会超过GPU,而TPU是目前最成熟的ASIC。


谷歌十年磨一剑,利刃已出鞘,接下来就看老黄这块盾牌的成色了。


出品 | 嘉宾商学