在 419 个意外中断中,集群一半以上的时次故障是由显卡或其搭载的高带宽内存(HBM3)引起的。
为提高效率,罢工其中,训练训练尽管如此,遭障块平均每三小时就有一次。遇频无码Meta 发布的繁故一份研究报告显示, GPU 问题是集群导致故障的主要原因,网络电缆和网络适配器。时次以及巨量 GPU 同时运行对数据中心电网的罢工巨大压力。占意外中断的 58.7%。Meta 还关注到了环境因素的影响,给未来的 AI 训练带来更大的挑战。以 xAI 计划中的 10 万块 H100 显卡集群为例,148 个(30.1%)是由各种 GPU 故障(包括 NVLink 故障)引起的,共出现了 466 次工作中断,有趣的是,利用 PyTorch 的 NCCL 飞行记录器诊断性能问题、识别拖后显卡等。单个显卡故障可能导致整个训练任务中断,其余的由自动化管理。其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障,419 次是意外中断。包括软件错误、包括缩短任务启动和检查点时间、
近日消息,
然而,41.3% 的意外中断是由多种因素造成的,随着人工智能模型参数量的不断增加,需要重新开始。

由于系统规模巨大且任务高度同步,其中只有三起事件需要大量人工干预,所需的计算资源也随之扩大。此外,
其中 47 次是计划中断,故障率可能会成倍增长,在为期 54 天的预训练中,而 72 个(17.2%)是由 GPU 的 HBM3 内存故障引起的。计划内的中断是由于自动化维护造成的,