Clockwork推出TorchPass终结GPU故障浪费

发布时间:2026-03-19 04:57  点击:1次

西班牙科技初创企业Clockwork.io近日宣布推出TorchPass工作负载容错技术,旨在解决人工智能基础设施中GPU资源浪费的巨额成本问题。作为Software-Driven AI Fabrics™技术的核心能力,TorchPass通过GPU实时迁移机制,在硬件故障发生时自动维持大规模AI训练任务持续运行,彻底改变了传统因故障必须重启训练的模式。

在西班牙及欧洲AI基础设施快速发展的背景下,该技术方案直击行业痛点。Clockwork.io首席执行官Suresh Vasudevan指出,企业虽投入数十亿美元采购新一代芯片,但分布式AI任务成本仍因系统故障被大幅推高。TorchPass通过软件定义的方式使基础设施故障对任务透明化,在典型2048卡GPU集群部署中,每年可恢复超过600万美元的算力成本。

Meta FAIR的研究数据显示,随着集群规模扩大,系统脆弱性显著增加。在1024卡集群中平均故障间隔时间仅为7.9小时,而在1.6万卡集群中更缩短至1.8小时。这意味着大规模AI训练几乎必然遭遇中断,导致任务需回退至最近检查点,造成数小时计算成果浪费及额外人工干预成本。TorchPass通过主动管理故障,在任务停止前即完成GPU替换与迁移,显著提升集群利用率。

该技术特别适用于即将部署的NVIDIA GB200、GB300 NVL72等新一代高密度AI系统。SemiAnalysis创始人Dylan Patel强调,随着Blackwell架构集群规模扩展,单一GPU故障或网络波动导致整个训练中断的模式已不可接受。TorchPass提供的透明故障切换与实时迁移能力,将有效维持高MFU(模型浮点利用率),优化GPU经济模型。

对于中国AI基础设施从业者而言,TorchPass的技术路径揭示了一个重要趋势:随着国产AI芯片集群规模扩大,软件定义容错能力将成为提升算力利用效率的关键竞争点,而非单纯依赖硬件冗余。中国企业在构建万卡级训练集群时,可重点关注此类通过软件层优化硬件可靠性的创新方案,以降低大规模AI训练的实际运营成本。

安国市森澜生物科技有限公司

联系人:
李厂长(先生)
电话:
15093275370
手机:
19949274831
地址:
河南省郑州市郑东新区金水路与通泰路交叉口雄鹰商务A栋4层401
邮件:
1316006905@qq.com
我们发布的其他工业用品新闻 更多
clockwork新闻
拨打电话 请卖家联系我