近日,数学与统计学院杨树森教授团队在人工智能辅助科学发现研究中取得重要进展。研究团队提出多尺度复杂系统公式发现的端到端人工智能方法 Deflex,以“Discovering Multiscale Deep Formulas in Complex Systems via Neural-Guided Lambda Calculus”为题,发表于国际著名期刊《自然·通讯》(Nature Communications)。
从观测数据中发现简洁、可解释的数学规律,是科学研究中的重要问题。近年来,人工智能方法在科学数据建模和预测方面取得快速发展,但如何进一步从复杂数据中提取可验证、可推演的数学表达,仍是 AI for Science 面临的重要挑战。复杂系统通常包含大量相互作用的个体,其规律可能在不同尺度上呈现不同形式:微观尺度上表现为守恒律、动力学方程或不变量,宏观尺度上则可能表现为概率分布、随机过程或统计规律。现有符号回归和稀疏建模方法在低维、单尺度问题中已有较好表现,但在复杂系统场景下,仍面临变量规模大、公式搜索空间庞大、高阶结构难以表达以及跨尺度规律难以统一刻画等问题。
针对上述问题,研究团队提出 Deflex 方法,将深度学习的表征能力与符号学习的形式化表达能力相结合。该方法由 Deflexformer 和 Deflexpressor 两个子系统组成。其中,Deflexformer 基于能量模型和自注意力网络,将方程、不变量和概率分布等不同形式的规律统一到能量函数框架中,并通过可分解结构学习复杂系统中的潜在关系;Deflexpressor 则基于 Lambda 演算增强符号回归,使系统能够表达和搜索包含映射、求和、规约等高阶结构的数学公式。
该方法的核心思想在于,先利用神经网络从大规模观测数据中学习并分解复杂关系,再通过符号回归提取可读的数学表达。与主要追求预测精度的黑箱模型不同,Deflex 更关注从数据中恢复具有明确数学结构的规律;与传统符号回归方法相比,该方法通过神经引导和分层分解降低复杂公式搜索难度,提高了复杂系统中多尺度公式发现的可行性和效率。

图1 Deflex 方法整体流程示意图。该方法融合 Deflexpressor 与 Deflexformer,通过公式生成、预训练、后训练和分层符号回归,从复杂系统观测数据中自动提取多尺度数学公式。
研究团队在分子运动、流体动力学、群体运动等复杂系统任务中对 Deflex 进行了验证。实验结果显示,该方法能够发现多类具有代表性的数学规律,包括能量守恒、动量守恒、Maxwell-Boltzmann 分布、含势能项的统计分布、Langevin 动力学、Navier-Stokes 方程以及群体运动中的统计规律等。相关结果表明,Deflex 不仅能够对复杂系统数据进行建模,还能够进一步输出具有可解释性的符号数学表达。

图2 Deflex 的跨尺度公式发现性能与基准测试结果。实验结果展示了该方法在分子运动、相变过程和流体动力学等任务中的跨尺度发现能力,并与多种符号回归方法进行了比较。
该研究为复杂系统中跨尺度、可解释数学规律的自动发现提供了新的方法工具,也为人工智能辅助科学发现从数据预测走向公式理解提供了新的技术路径。未来,该类方法有望应用于物理、流体、材料、群体行为和社会复杂系统等研究场景,帮助研究者从大规模观测数据中提炼可理解、可验证的数学规律。
西安交通大学杨树森教授、博士生余翰乔为论文共同第一作者,杨树森教授、任雪斌副教授为共同通讯作者,赵聪教授参与研究。