亚马逊Trainium实验室独家探秘：这颗芯片让Anthropic、OpenAI甚至苹果都服气

2026-03-22 20:25:24

亚马逊这次玩得真大。Andy Jassy刚对外宣布砸下500亿美元跟OpenAI签合作协议，转头就请媒体进自家Trainium芯片实验室参观。地点在奥斯汀，芯片团队的核心地盘，我跟着他们的工程总监Mark Carroll和实验室主任Kristopher King走了一圈。

先说结论最硬的那个点：OpenAI直接拿到了亚马逊承诺的2吉瓦Trainium算力。这数字听起来抽象，放现实里就是巨量芯片。Anthropic的Claude模型已经把超过100万颗Trainium2吃得干干净净，Bedrock平台的企业客户也抢着要容量。产能跟不上需求，King直言“客户增长速度比我们造芯片还快”。Bedrock未来体量有可能追平EC2，这话不是随便吹。

Trainium最早是为训练模型设计的，现在主力干的是推理。推理才是当下AI最卡脖子的环节，每天万亿token的吞吐量，成本和延迟稍微优化一点都是真金白银。亚马逊放话，Trainium3配上Trn3 UltraServer，跑同等性能比传统云服务器便宜50%。他们还自研了Neuron交换机，实现全芯片网格互联，延迟降到极致。Carroll聊起这个组合时眼睛发亮，说这才是真正改变游戏规则的东西。

价格战之外，兼容性成了亚马逊这次最狠的一招。过去开发者死守Nvidia生态，换芯片等于重写代码，成本高到离谱。现在Trainium直接支持PyTorch，Hugging Face上大部分开源模型基本改一行代码、重新编译就能跑。工程师讲得轻描淡写，可这对Nvidia的护城河是实打实的削弱。苹果2024年公开表扬过他们的Graviton和Inferentia，顺带点名Trainium，当时业内就炸了锅——苹果这种公司轻易不开口。

实验室本身挺有意思。地方藏在奥斯汀The Domain区的高层写字楼后侧，外面是商场和餐厅，里面是风扇轰鸣的工业味空间。货架上摆满测试设备，有焊台、显微镜焊接站，还有一整面墙陈列历代sled（芯片托盘）。从第一代到Trainium3的最新款，一路进化看得人热血。sled是整个系统的核心，Trainium芯片、Graviton CPU、Nitro虚拟化硬件全塞进去，再堆上自研网络组件，就成了支撑Claude和Bedrock的计算基石。

带-up过程最刺激。芯片第一次上电叫bring-up，团队直接通宵加班，像过派对一样点披萨。Trainium3原型原本用风冷，结果散热器尺寸对不上，芯片根本点不亮。工程师二话不说拿磨光机在会议室里磨金属，就为了不吵到主战场的氛围。液冷方案后来成了标配，闭环循环还能省电环保。数据中心那边更夸张，耳塞必备，空气里全是热金属味，Trn3 UltraServer一排排跑着，中间夹着Neuron交换机，维护工程师爬上爬下换sled。

亚马逊这条路其实老套路：用户要什么就自己做个更便宜的。芯片生意难就难在切换成本高，但他们硬是把门槛降到最低。Cerebras的推理芯片也开始集成进来，未来低延迟场景可能更猛。Jassy公开说Trainium已经是AWS几十亿美元级业务，还在推特上cue过OpenAI合作。工程师们压力山大，每代芯片bring-up都要连轴转三四周，确保能快速量产。

市场现在有点乱。FT爆料微软觉得亚马逊这个独家协议可能踩了OpenAI跟他们的约定红线，毕竟微软原本是要拿OpenAI所有模型和技术优先权。真假还得看后续扯皮，但2吉瓦算力已经锁了，Trainium产能吃紧的局面短期内只会更严重。

币圈这边风向也冷。BTC现报$68,582（24h -3.07%），ETH现报$2,080（24h -3.70%），主流币集体下挫。AI算力股和云服务相关标的却未必同步跌，毕竟大厂抢芯片的戏码还在高潮。亚马逊这步棋下得早也下得重，Trainium能不能真从Nvidia嘴里抠出大块市场份额，2026年会给出更清晰答案。

« 比特币恐现50%腰斩风险，美股联动性正急速回升... 洛杉矶法院用AI清积案，加密圈却该醒醒了... »

亚马逊Trainium实验室独家探秘：这颗芯片让Anthropic、OpenAI甚至苹果都服气

相关资讯