亚马逊这次玩得真大。Andy Jassy刚对外宣布砸下500亿美元跟OpenAI签合作协议,转头就请媒体进自家Trainium芯片实验室参观。地点在奥斯汀,芯片团队的核心地盘,我跟着他们的工程总监Mark Carroll和实验室主任Kristopher King走了一圈。
先说结论最硬的那个点:OpenAI直接拿到了亚马逊承诺的2吉瓦Trainium算力。这数字听起来抽象,放现实里就是巨量芯片。Anthropic的Claude模型已经把超过100万颗Trainium2吃得干干净净,Bedrock平台的企业客户也抢着要容量。产能跟不上需求,King直言“客户增长速度比我们造芯片还快”。Bedrock未来体量有可能追平EC2,这话不是随便吹。
Trainium最早是为训练模型设计的,现在主力干的是推理。推理才是当下AI最卡脖子的环节,每天万亿token的吞吐量,成本和延迟稍微优化一点都是真金白银。亚马逊放话,Trainium3配上Trn3 UltraServer,跑同等性能比传统云服务器便宜50%。他们还自研了Neuron交换机,实现全芯片网格互联,延迟降到极致。Carroll聊起这个组合时眼睛发亮,说这才是真正改变游戏规则的东西。
价格战之外,兼容性成了亚马逊这次最狠的一招。过去开发者死守Nvidia生态,换芯片等于重写代码,成本高到离谱。现在Trainium直接支持PyTorch,Hugging Face上大部分开源模型基本改一行代码、重新编译就能跑。工程师讲得轻描淡写,可这对Nvidia的护城河是实打实的削弱。苹果2024年公开表扬过他们的Graviton和Inferentia,顺带点名Trainium,当时业内就炸了锅——苹果这种公司轻易不开口。
实验室本身挺有意思。地方藏在奥斯汀The Domain区的高层写字楼后侧,外面是商场和餐厅,里面是风扇轰鸣的工业味空间。货架上摆满测试设备,有焊台、显微镜焊接站,还有一整面墙陈列历代sled(芯片托盘)。从第一代到Trainium3的最新款,一路进化看得人热血。sled是整个系统的核心,Trainium芯片、Graviton CPU、Nitro虚拟化硬件全塞进去,再堆上自研网络组件,就成了支撑Claude和Bedrock的计算基石。
带-up过程最刺激。芯片第一次上电叫bring-up,团队直接通宵加班,像过派对一样点披萨。Trainium3原型原本用风冷,结果散热器尺寸对不上,芯片根本点不亮。工程师二话不说拿磨光机在会议室里磨金属,就为了不吵到主战场的氛围。液冷方案后来成了标配,闭环循环还能省电环保。数据中心那边更夸张,耳塞必备,空气里全是热金属味,Trn3 UltraServer一排排跑着,中间夹着Neuron交换机,维护工程师爬上爬下换sled。
亚马逊这条路其实老套路:用户要什么就自己做个更便宜的。芯片生意难就难在切换成本高,但他们硬是把门槛降到最低。Cerebras的推理芯片也开始集成进来,未来低延迟场景可能更猛。Jassy公开说Trainium已经是AWS几十亿美元级业务,还在推特上cue过OpenAI合作。工程师们压力山大,每代芯片bring-up都要连轴转三四周,确保能快速量产。
市场现在有点乱。FT爆料微软觉得亚马逊这个独家协议可能踩了OpenAI跟他们的约定红线,毕竟微软原本是要拿OpenAI所有模型和技术优先权。真假还得看后续扯皮,但2吉瓦算力已经锁了,Trainium产能吃紧的局面短期内只会更严重。
币圈这边风向也冷。BTC现报$68,582(24h -3.07%),ETH现报$2,080(24h -3.70%),主流币集体下挫。AI算力股和云服务相关标的却未必同步跌,毕竟大厂抢芯片的戏码还在高潮。亚马逊这步棋下得早也下得重,Trainium能不能真从Nvidia嘴里抠出大块市场份额,2026年会给出更清晰答案。