Clockwork推出TorchPass终结GPU故障浪费

发布时间：2026-03-19 04:57 点击:1次

西班牙科技初创企业Clockwork.io近日宣布推出TorchPass工作负载容错技术，旨在解决人工智能基础设施中GPU资源浪费的巨额成本问题。作为Software-Driven AI Fabrics™技术的核心能力，TorchPass通过GPU实时迁移机制，在硬件故障发生时自动维持大规模AI训练任务持续运行，彻底改变了传统因故障必须重启训练的模式。

在西班牙及欧洲AI基础设施快速发展的背景下，该技术方案直击行业痛点。Clockwork.io首席执行官Suresh Vasudevan指出，企业虽投入数十亿美元采购新一代芯片，但分布式AI任务成本仍因系统故障被大幅推高。TorchPass通过软件定义的方式使基础设施故障对任务透明化，在典型2048卡GPU集群部署中，每年可恢复超过600万美元的算力成本。

Meta FAIR的研究随着集群规模扩大，系统脆弱性显著增加。在1024卡集群中平均故障间隔时间仅为7.9小时，而在1.6万卡集群中更缩短至1.8小时。这意味着大规模AI训练几乎必然遭遇中断，导致任务需回退至最近检查点，造成数小时计算成果浪费及额外人工干预成本。TorchPass通过主动管理故障，在任务停止前即完成GPU替换与迁移，显著提升集群利用率。

该技术特别适用于即将部署的NVIDIA GB200、GB300 NVL72等新一代高密度AI系统。SemiAnalysis创始人Dylan Patel强调，随着Blackwell架构集群规模扩展，单一GPU故障或网络波动导致整个训练中断的模式已不可接受。TorchPass提供的透明故障切换与实时迁移能力，将有效维持高MFU（模型浮点利用率），优化GPU经济模型。

对于中国AI基础设施从业者而言，TorchPass的技术路径揭示了一个重要趋势：随着国产AI芯片集群规模扩大，软件定义容错能力将成为提升算力利用效率的关键竞争点，而非单纯依赖硬件冗余。中国企业在构建万卡级训练集群时，可重点关注此类通过软件层优化硬件可靠性的创新方案，以降低大规模AI训练的实际运营成本。

Clockwork推出TorchPass终结GPU故障浪费

安国市森澜生物科技有限公司