亚马逊Trainium芯片挑战英伟达垄断

亚马逊云科技（AWS）近期向外界展示了位于美国德克萨斯州奥斯汀的Trainium芯片研发实验室，此举紧随其宣布与OpenAI达成500亿美元合作协议之后。该实验室由Kristopher King和Mark Carroll领导，是AWS专门研发人工智能处理器以对抗英伟达市场主导地位的核心基地。业界高度关注Trainium芯片，因为它有望显著降低AI推理成本，改变行业格局。

根据协议，AWS将向OpenAI提供2吉瓦的Trainium计算能力。这一规模极为庞大，因为Anthropic和AWS的Bedrock服务目前对Trainium芯片的需求已远超产能。目前，全球已部署140万个Trainium芯片，其中超过100万个Trainium2芯片正被Anthropic的Claude模型使用。

AWS在奥斯汀的芯片实验室凝聚了超过十年的半导体设计经验，这源于2015年1月亚马逊以约3.5亿美元收购以色列公司Annapurna Labs。尽管团队保留了以色列的技术根基，并在奥斯汀The Domain区运营，但Annapurna的品牌标识依然清晰可见。King表示，AWS的客户群扩张速度几乎与产能提升同步，他预言Bedrock服务未来规模可能超越AWS的旗舰EC2服务。Trainium芯片最初旨在加速AI模型训练，如今已优化至AI推理领域，解决了行业当前的性能瓶颈。

在成本竞争方面，亚马逊宣称其搭载在专用Trn3 UltraServer服务器上的新芯片，在提供同等性能时，成本比传统云服务器低达50%。2023年12月发布的Trainium3芯片采用台积电3纳米工艺，在处理器架构上实现了重大突破。此外，AWS团队还开发了新型Neuron交换机，使每个Trainium3芯片能以网状结构与其他芯片通信，大幅降低延迟。Carroll指出，这正是Trainium3在能效比上打破多项纪录的原因。

降低迁移成本的关键在于Trainium现已支持PyTorch这一主流开源AI框架。Carroll强调，从其他架构迁移到Trainium“基本只需修改一行代码，然后重新编译运行”。这一举措旨在削弱英伟达在AI芯片市场的近乎垄断地位。本月，AWS还宣布与Cerebras Systems合作，将其推理芯片集成到运行Trainium的服务器中，承诺为企业应用提供超低延迟的超强AI性能。

奥斯汀实验室是芯片“启动”（bring-up）的关键场所，即芯片在18个月研发后首次激活的时刻。King将这一过程形容为“盛大的夜间派对”，团队需驻守现场验证芯片功能。在Trainium3的启动过程中，团队曾遇到芯片与风冷散热器连接尺寸的问题，工程师们随即在会议室使用角磨机进行金属加工，既解决了问题又未破坏现场氛围。实验室还配备了专用焊接站，工程师们在此进行集成电路的微观焊接，其复杂程度令Carroll也坦言无法亲自操作。

除了芯片本身，亚马逊还自主设计了完整的服务器架构，包括网络组件、Nitro虚拟化技术、先进的液冷系统以及承载Trainium、Graviton CPU等核心组件的“ sleds”（托盘）。这些托盘是Anthropic Claude成功的关键。目前，最大的Trainium2芯片集群部署在Project Rainier项目中，该集群于2025年底激活，拥有50万颗芯片，主要由Anthropic使用。尽管团队对与OpenAI的具体协议细节保持谨慎，以防引发与微软的法律纠纷，但办公室内的屏幕仍展示了OpenAI利用Trainium的规划，流露出团队的自豪感。

亚马逊CEO安迪·贾西密切关注实验室进展，并在12月宣布Trainium已成为AWS的数十亿美元级业务。除了奥斯汀实验室，AWS还运营着一个独立的私有数据中心用于严格的质量测试，该中心采用闭环液冷系统以减少环境影响。工程师们需在每次启动事件前后连续工作24/7长达三至四周，以解决故障并实现大规模量产。Carroll表示：“尽快证明芯片有效至关重要，目前我们做得很好。”

亚马逊通过垂直整合从芯片设计到服务器制造的全链路能力，正以极具竞争力的成本和技术生态向英伟达发起挑战。对于中国AI企业而言，这种“自研芯片+全栈优化”的模式提供了重要参考，表明在算力成本日益敏感的当下，构建自主可控且兼容主流框架的算力基础设施，是降低运营成本、提升技术灵活性的关键路径。随着全球AI算力需求的爆发，谁能提供更高效、更低成本的解决方案，谁就能在下一轮技术竞争中占据主动。

亚马逊Trainium芯片挑战英伟达垄断

深圳市诚信联科技有限公司