论坛

软件开发新闻
新兴国产第一性原理软件PWDFT大规模并行算法开发取得新进展。来自中国科学技术大学和清华大学的研究人员提出了可以进行大规模计算的线性响应TDDFT（LR-TDDFT）方法，并结合第一性原理平面波计算软件PWDFT，在Cori超级计算机和新一代神威超级计算机上进行了广泛的数值实验，系统验证了可以加速LR-TDDFT计算的两种途径：（1）数值算法加速和（2）新一代神威超级计算机异构架构加速。借助新的算法和并行技术以及异构硬件优化，TDDFT的计算上限已达到具有4096个原子的三维半导体硅体系的规模，在并行规模和体系规模方面均超过了当前已知的技术水平。而通过相关数值结果的评估，研究人员还确认了新方法具有良好的强扩展性和弱扩展性。该成果以“Extending the limit of LR-TDDFT on two different approaches: Numerical algorithms and new Sunway heterogeneous supercomputer”为题，近日已经线上发表于超算领域国际期刊《Parallel Computing》。

文章介绍

第一性原理Kohn-Sham密度泛函理论（DFT）在凝聚态物理、计算化学和材料等科学中已得到了广泛应用。为实现在计算模拟层面新材料的设计并准确预测它们在不同应用领域的奇特性质，发展大规模的DFT和含时密度泛函理论（TDDFT）方法在材料的基态和激发态模拟中都具有重要作用。

在线性含时密度泛函理论（LR-TDDFT）中，Casida方程是描述体系激发能量和相应波函数的最常用公式。计算Casida方程时最耗时的环节主要分为两部分，一部分是构造显式哈密顿量，另一部分是对LR-TDDFT哈密顿量进行对角化，其复杂度分别为O(N5)和 O(N6)，其中N为体系电子数。尤其是当使用大型完备基组（如平面波基组）时，随着计算体系规模的扩大，LR-TDDFT在通用设备CPU平台上的计算和内存成本将变得极其昂贵。目前，尽管已有软件能够实现千原子级别的LR-TDDFT计算，然而主要基于局域基组而实现，难以在计算复杂体系时达到理想的精度。因此，如何在标准平面波基组下采用LR-TDDFT方法计算具有数千个原子大规模周期性体系的激发态性质仍然是一项非常艰巨的挑战。

得益于新型算法和现代高性能计算（HPC）平台的出现，这种情况得到极大改善。例如，在算法方面，低秩方法的密度拟合近似不仅可以加速LR-TDDFT哈密顿量的构造，而且可以显著降低内存成本。而可通过降低计算复杂度从而加速计算的迭代子空间特征值求解器算法，如Davidson和LOBPCG等，也已成功应用于模拟激发态性质。基于以上进展，使用平面波基组LR-TDDFT进行大规模物理体系激发态计算已然成为可能。

在此项研究中，研究人员提出了可以进行大规模并行计算的线性响应TDDFT（LR-TDDFT）方法，并结合第一性原理平面波计算软件PWDFT，在Cori超级计算机和新一代神威超级计算机上进行了广泛的数值实验，系统验证了可以加速LR-TDDFT计算的两种途径：

· 数值算法：基于K-Means的插值可分密度拟合（ISDF）可在LR-TDDFT计算中减少哈密顿量构建过程中的超高计算和内存成本。此外也通过隐式构造和迭代对角化哈密顿量来减少计算和内存成本。

· 新一代神威超级计算机异构架构：利用大量计算处理单元（CPEs）的强大计算能力加速计算。

该研究表明借助新的算法和并行技术以及异构硬件优化，人们终于可以对原子数高达4096个的三维半导体硅体系进行TDDFT研究，这一结果在并行规模和体系规模方面均超过了当前已知的技术水平。而通过相关数值结果的评估，研究人员确认了新方法具有良好的强扩展性和弱扩展性。

表1 不同的大规模并行第一性原理软件计算激发态性质的性能对比

数值结果

（1）数值准确性

为了确保研究方法准确性，研究人员将Naïve版本（原始版本）和隐式-Kmeans-ISDF-LOBPCG版本与Quantum Espresso (QE)进行比较，后者作为准确性基准。表1列出了使用不同软件计算不同测试体系（H2O和Si64）得到的数据。结果表明当前优化与QE的结果非常一致，激发能差异很小。对数值算法的优化引入的误差非常的小，相对误差小至0.001%，可忽略不计。而神威异构架构加速并不会从方法层面影响数值准确性。

表2 同QE结果对比，不同方法获得的三个最低激发能及其相对误差

（2）强扩展性

研究人员在美国国家能源研究科学计算机中心（NERSC）的Cori 超级计算机上测试和评估了不同数值算法版本的LR-TDDFT的强扩展性。研究人员测试了3种不同版本LR-TDDFT的计算情况，即Naïve版本、ISDF版本和ISDF-LOBPCG版本。对1000个硅原子体系的计算执行时间如图1所示。结果表明Naïve版本当扩展到2048个CPU时，并行效率保持在50% 以上。

图 1强扩展性：执行时间和并行效率与CPU数量关系

研究人员进一步将哈密顿量构建的执行时间切割成(1) K-Means、(2) FFT、(3) MPI 和 (4) GEMM四部分，并进行了更细致的比较。如图2所示，CPU数目一直升至2048个为止，这四部分均表现出良好的强扩展性。

图 3 在新神威平台上的强扩展性

（3）弱扩展性

在数值算法加速层面，研究人员在Cori超级计算机上的测试结果表明，此方法可以显着降低LR-TDDFT模拟计算步骤中的内存成本，从而能够使用更少的计算资源来研究更大的物理系统。使用优化版LR-TDDFT的代码并将每个进程绑定到单个核心，使用1024个核心来计算Si512, Si1000, Si1728, Si2744和Si4096等体系，对应的计算耗时分别为3.58、10.23、26.95、35.58和41.89秒。

在神威异构架构加速层面，对于Si512、Si1000、Si1728和Si2744四个体系，采用512个核组时，求解时间则分别为12.46、15.35、32.40和45.74秒。（由于内存限制，当截断能与前文保持一致时，在新神威平台上无法进行4096原子的测试。）考虑到新神威的通信成本更高，该结果也符合计算的复杂性。

（4）加速结果

在数值算法加速层面，研究人员在Cori超级计算机上的测试中进一步减少了计算资源，并将一个核心与一个MPI进程绑定，使得每个进程仅占用 4 GB 内存。表2是使用Naïve和ISDF-LOBPCG版本代码评估不同规模体系的测试结果。实测结果表明平均加速比为9.254倍。而当使用更大的计算资源时（图1），平均加速比将提升至12.58倍。在所有的数值结果中，优化版的平均加速比超过10倍。结合精度特性，此方法可以用更少的资源达到相当快的计算速度。

表3 不同规模硅体系执行时间（单位：秒）和加速比

在神威异构架构加速层面，图4所示的结果表明，加速比随着核组数目的增加而降低。这是因为，核组数目增加会使得每个核组所分配的计算任务出现减少，导致加速效果减弱。当核组数目设置为100时，优化版实现了80.5的最高加速比，这是由于当参与计算的核组数目从50变为100时，内存访问时间急剧减少。此外，当使用500个核组时，优化版实现了23倍的显着加速。这证实了文章所提方法在提升新神威平台上计算性能方面的有效性。

图 4与原始版本相比在新神威平台上加速比

在这项工作中，研究人员采用了两种不同的优化方案来加速线性响应时变密度泛函理论（LR-TDDFT）计算。一种方案以Intel平台为核心，主要利用具有可接受和可控精度损失的数值算法进行计算。另一种方案针对新的神威平台，利用异构体系结构实现了令人印象深刻的加速。通过对这两种方案进行比较和分析，并在超级计算机平台上进行实验和评估，研究人员认为新的优化方案在计算效率和准确性方面取得了实质性的突破，为LR-TDDFT计算在新领域的应用拓展铺平了道路。

论文信息

文章题目：Extending the limit of LR-TDDFT on two different approaches: Numerical algorithms and new Sunway heterogeneous supercomputer

期刊：Parallel Computing

作者：姜庆彩#，曹振伟#，崔昕晖，万凌云，秦新明，曹焕琦，安虹*，陈俊仕*，刘杰，胡伟*，杨金龙

通讯作者：安虹，陈俊仕，胡伟（中国科学技术大学）

发表日期：2024年5月4日（在线）

论文链接：

https://doi.org/10.1016/j.parco.2024.103085

PWDFT软件介绍

PWDFT是一款基于平面波基组的密度泛函理论计算软件，主要通过求解Kohn-Sham方程实现固体材料和分子体系的电子结构计算和第一性原理分子动力学模拟。它与目前市场上的主流第一性原理软件属同类软件，并且具有相同的计算精度。

PWDFT使用C/C++语言编写，结合CPU-MPI和GPU-CUDA异构并行框架实现高性能计算，主要致力于实现数百到上千原子的大体系的密度泛函理论计算。目前支持单Gamma点和多k点采样，自旋限制、自旋极化和非线性自旋加自旋轨道耦合(SOC)的密度泛函理论计算，可以提供计算体系基态的总能量、能级、电子密度、态密度、磁性、原子力、能带结构，还支持结构优化以及激发态的电子结构计算、并有第一性原理分子动力学计算模块。

相比较其它国外第一性原理计算软件，PWDFT架构清晰，支持intel/Vtune 热点分析工具，在提高性能以及开发新功能、新算法方面具有独特优势。集成了最新的第一性原理加速算法，包括LOBPCG/PPCG本征值迭代算法、ACE、ISDF和PC-DIIS等加速算法，使得用PWDFT-DCU做大体系杂化密度泛函计算加速快100倍。支持CPU-DCU异构加速和CPU-GPU异构加速，现在可以同时兼容NVIDIA-CUDA和AMD-HIP平台。PWDFT的GPU优化程度比目前世界排名第一的第一性原理软件的GPU版本更高，并比其快了一个数量级以上。且具有非常好的扩展性能，这在平面波基组的第一性原理软件中名列前茅。行业内使用最广泛的第一性原理软件只能做到数百原子数百核并行，而PWDFT可以做到10000原子40000 CPU核并行，以及GPU/DCU上千块卡并行。

作者的其他帖子