Nvidia GB200与GB300系统推理性能创纪录

美国新泽西州利文斯顿——CoreWeave公司近日发布了基于Nvidia GB200 NVL72和GB300 NVL72架构的最新MLPerf Inference v6.0基准测试结果。该测试在数据中心封闭类别中进行，旨在验证理论算力如何转化为实际推理性能。测试结果显示，GB200 NVL72系统在DeepSeek-R1模型的服务器端和离线模式下，以每秒GPU令牌数（tokens per second per GPU）为指标，取得了****的性能表现。

更为引人注目的是，GB300 NVL72系统在相同硬件规模下，其DeepSeek-R1模型的推理结果达到了CoreWeave此前MLPerf 5.1版本成绩的两倍。这一突破主要得益于对稀疏专家混合（Sparse Mixture-of-Experts）架构的深度优化。CoreWeave此次重点测试了两种推理模型：DeepSeek-R1和GPT-OSS-120B，充分展示了新架构在处理复杂推理任务时的巨大潜力。

CoreWeave联合创始人兼首席技术官Peter Salanki表示：“MLPerf等基准测试有助于衡量理论性能如何转化为具体成果。最新数据证明，通过全栈优化，我们能够为大规模、高难度的前沿推理模型提供卓越性能。”目前，CoreWeave云服务已服务于全球**模型厂商中的八家，并曾在SemiAnalysis的ClusterMAX评估中获得铂金级认证。

从市场背景来看，法国及欧洲市场对AI基础设施的关注度正迅速提升，但核心算力仍高度依赖美国技术巨头。CoreWeave作为专注于AI云服务的美国企业，其技术突破对全球算力格局具有风向标意义。尽管该公司于2025年3月在纳斯达克完成上市，且过去十二个月营收增长达168%，但股价在过去半年下跌43%，目前报78.16美元，远低于52周高点187美元。分析机构指出，其市值约407亿美元，但存在高负债和现金流消耗快等风险因素。

值得注意的是，CoreWeave采用的“每秒GPU令牌数”并非MLPerf官方标准指标，而是为统一不同GPU数量下的测试结果而设计的归一化数据。这种测试方法虽有助于横向对比，但在解读时需结合具体硬件配置。对于中国AI企业而言，全球算力竞赛已进入“效率为王”的新阶段，单纯堆砌硬件已难以为继，必须像CoreWeave一样深耕全栈优化，才能在推理成本与性能之间找到**平衡点。

Nvidia GB200与GB300系统推理性能创纪录

上海凌世电磁技术有限公司