亚马逊Trainium芯片挑战英伟达垄断

发布时间:2026-03-26 00:00  点击:1次

亚马逊云科技(AWS)近期向外界展示了位于美国德克萨斯州奥斯汀的Trainium芯片研发实验室,此举紧随其宣布与OpenAI达成500亿美元合作协议之后。该实验室由Kristopher King和Mark Carroll领导,是AWS专门研发人工智能处理器以对抗英伟达市场主导地位的核心基地。业界高度关注Trainium芯片,因为它有望显著降低AI推理成本,改变行业格局。

根据协议,AWS将向OpenAI提供2吉瓦的Trainium计算能力。这一规模极为庞大,因为Anthropic和AWS的Bedrock服务目前对Trainium芯片的需求已远超产能。目前,全球已部署140万个Trainium芯片,其中超过100万个Trainium2芯片正被Anthropic的Claude模型使用。

AWS在奥斯汀的芯片实验室凝聚了超过十年的半导体设计经验,这源于2015年1月亚马逊以约3.5亿美元收购以色列公司Annapurna Labs。尽管团队保留了以色列的技术根基,并在奥斯汀The Domain区运营,但Annapurna的品牌标识依然清晰可见。King表示,AWS的客户群扩张速度几乎与产能提升同步,他预言Bedrock服务未来规模可能超越AWS的旗舰EC2服务。Trainium芯片最初旨在加速AI模型训练,如今已优化至AI推理领域,解决了行业当前的性能瓶颈。

在成本竞争方面,亚马逊宣称其搭载在专用Trn3 UltraServer服务器上的新芯片,在提供同等性能时,成本比传统云服务器低达50%。2023年12月发布的Trainium3芯片采用台积电3纳米工艺,在处理器架构上实现了重大突破。此外,AWS团队还开发了新型Neuron交换机,使每个Trainium3芯片能以网状结构与其他芯片通信,大幅降低延迟。Carroll指出,这正是Trainium3在能效比上打破多项纪录的原因。

降低迁移成本的关键在于Trainium现已支持PyTorch这一主流开源AI框架。Carroll强调,从其他架构迁移到Trainium“基本只需修改一行代码,然后重新编译运行”。这一举措旨在削弱英伟达在AI芯片市场的近乎垄断地位。本月,AWS还宣布与Cerebras Systems合作,将其推理芯片集成到运行Trainium的服务器中,承诺为企业应用提供超低延迟的超强AI性能。

奥斯汀实验室是芯片“启动”(bring-up)的关键场所,即芯片在18个月研发后首次激活的时刻。King将这一过程形容为“盛大的夜间派对”,团队需驻守现场验证芯片功能。在Trainium3的启动过程中,团队曾遇到芯片与风冷散热器连接尺寸的问题,工程师们随即在会议室使用角磨机进行金属加工,既解决了问题又未破坏现场氛围。实验室还配备了专用焊接站,工程师们在此进行集成电路的微观焊接,其复杂程度令Carroll也坦言无法亲自操作。

除了芯片本身,亚马逊还自主设计了完整的服务器架构,包括网络组件、Nitro虚拟化技术、先进的液冷系统以及承载Trainium、Graviton CPU等核心组件的“ sleds”(托盘)。这些托盘是Anthropic Claude成功的关键。目前,最大的Trainium2芯片集群部署在Project Rainier项目中,该集群于2025年底激活,拥有50万颗芯片,主要由Anthropic使用。尽管团队对与OpenAI的具体协议细节保持谨慎,以防引发与微软的法律纠纷,但办公室内的屏幕仍展示了OpenAI利用Trainium的规划,流露出团队的自豪感。

亚马逊CEO安迪·贾西密切关注实验室进展,并在12月宣布Trainium已成为AWS的数十亿美元级业务。除了奥斯汀实验室,AWS还运营着一个独立的私有数据中心用于严格的质量测试,该中心采用闭环液冷系统以减少环境影响。工程师们需在每次启动事件前后连续工作24/7长达三至四周,以解决故障并实现大规模量产。Carroll表示:“尽快证明芯片有效至关重要,目前我们做得很好。”

亚马逊通过垂直整合从芯片设计到服务器制造的全链路能力,正以极具竞争力的成本和技术生态向英伟达发起挑战。对于中国AI企业而言,这种“自研芯片+全栈优化”的模式提供了重要参考,表明在算力成本日益敏感的当下,构建自主可控且兼容主流框架的算力基础设施,是降低运营成本、提升技术灵活性的关键路径。随着全球AI算力需求的爆发,谁能提供更高效、更低成本的解决方案,谁就能在下一轮技术竞争中占据主动。

深圳市诚信联科技有限公司

联系人:
古小姐(先生)
电话:
0755-86091963
手机:
13249827170
邮件:
446230017@qq.com
trainium新闻
拨打电话 请卖家联系我