近日消息,419 次是意外中断。
在 419 个意外中断中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。41.3% 的意外中断是由多种因素造成的,

由于系统规模巨大且任务高度同步,单个显卡故障可能导致整个训练任务中断,包括软件错误、其中只有三起事件需要大量人工干预,随着人工智能模型参数量的不断增加,
然而,Meta 团队还是保持了 90% 以上的有效训练时间。其中,其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障, GPU 问题是导致故障的主要原因,Meta 还关注到了环境因素的影响,
为提高效率,而 72 个(17.2%)是由 GPU 的 HBM3 内存故障引起的。
在为期 54 天的预训练中,以及巨量 GPU 同时运行对数据中心电网的巨大压力。占意外中断的 58.7%。识别拖后显卡等。有趣的是,
故障率可能会成倍增长,共出现了 466 次工作中断,平均每三小时就有一次。其余的由自动化管理。