近日,西安交通大学数学与统计学院严晓东教授团队成功揭榜华为难题集第108期——算力会战第七期技术难题“面向大模型训练静默数据错误检测&容错技术”,并荣获2025年度华为“火花奖”。

图1 面向大模型训练静默数据错误检测&容错技术难题详情
该难题围绕大模型训练过程中芯片静默数据错误展开,是国际人工智能科技巨头DeepSeek、OpenAI、DeepMind大模型训练中遇到的公开难题。此类错误具有隐蔽性强、难以及时发现等特点,容易导致模型训练偏差甚至失败,而传统检测方法普遍存在计算成本高、误报率高和检出率不足等问题。
针对这一行业瓶颈,严晓东教授团队基于Chen-Epstein 中心极限定理构建了一套名为“双臂机(TAB)在线动态检测”的实时检测框架。该理论揭示:当两个分布的差异较大时(即发生静默数据错误),策略极限分布将呈现双峰形式(binormal distribution),这一分布相对于正态分布具有更厚的尾部,从而内在地提升了检出率。若两个分布相同(即不发生静默数据错误),则策略极限分布趋近于非线性正态分布(又称Chen-Epstein分布)(如图1)。


图2 Chen-Epstein 中心极限定理的极限分布和功效图
实验结果显示,在模拟大模型训练场景中,该方法对第四、第五位比特翻转错误实现了100%检出率和0%误报率,单张量处理时间达到毫秒级,在检出率、误报率和训练开销等关键指标上全面优于现有主流技术。同时,这一方法无需中断训练即可实时运行、不假定模型,与分布式训练环境高度契合,因此泛化能力极强。
此次成功揭榜,不仅验证了Chen-Epstein 中心极限定理在工程实践中的价值,也为其在数据抽样、在线学习、强化学习统计推断、隐私保护等方向的拓展应用奠定了基础。严晓东教授表示,团队将继续沿着人工智能数据安全、内生模型安全等方向深入研究,为构建新一代安全的人工智架构能提供坚实的数理支撑。
编辑:徐思雨
审核:孙剑