WeChat597211dfaa4bb866248be0ea7ca9ccfa.jpg

01 软件介绍
02 软件功能
03 测试数据
04 学术成果
05 开发团队
06 试用渠道


软件简介

PWDFT(Plane Wave Density Functional Theory)是一款基于平面波基组的密度泛函理论计算软件,其功能完善,并行效率高,支持多种异构并行框架高性能计算,采用GPU-CPU异构加速可快速实现上千原子平面波杂化泛函第一性原理计算



软件
介绍


目前,第一性原理计算软件国内市场主要是被国外软件所垄断,这些软件开发时间早,用户对其依赖性也最强,这使得国产计算软件长期处于弱势地位。在如今紧张的国际形势下,国产计算软件面临“卡脖子”态势。开发性能优越、自主可控的国产计算软件迫在眉睫。PWDFT就是在这种背景下应运而生。


PWDFT是一款基于平面波基组的密度泛函理论计算软件,主要通过求解Kohn-Sham方程实现固体材料和分子体系的电子结构计算和第一性原理分子动力学模拟。它与目前市场上的主流第一性原理软件属同类软件,具有相同的计算精度。


PWDFT使用C/C++语言编写,结合CPU-MPI和GPU-CUDA异构并行框架实现高性能计算,主要致力于实现数百到上千原子的大体系的密度泛函理论计算。目前支持单Gamma点(不支持多k点计算)、不考虑电子自旋的密度泛函理论计算,可以提供计算体系基态的总能量、能级、电子密度、态密度、原子力,还支持结构优化以及激发态的电子结构计算、并有第一性原理分子动力学计算模块。

相比较其它国外第一性原理计算软件,PWDFT有如下优势:


        新型第一性原理计算开发平台

PWDFT采用C/C++编写,架构清晰,支持intel/Vtune 热点分析工具,在提高性能以及开发新功能、新算法方面具有独特优势。

PWDFT集成了最新的第一性原理加速算法,包括LOBPCG/PPCG本征值迭代算法、ACE、ISDF和PC-DIIS等加速算法,使得用PWDFT-DCU做大体系杂化密度泛函计算加速快100倍

持CPU-DCU异构加速

PWDFT支持CPU-GPU异构加速,现在可以同时兼容NVIDIA-CUDA和AMD-HIP平台。PWDFT的GPU优化程度比目前世界排名第一的第一性原理软件的GPU版本更高,并比其快了一个数量级以上

拥有世界领先的扩展性能

由于PWDFT本身优秀的并行程序架构设计,PWDFT具有非常好的扩展性能,这在平面波基组的第一性原理软件中名列前茅。行业内使用最广泛的第一性原理软件只能做到数百原子数百核并行,而PWDFT可以做到4000原子8000CPU核并行,在GPU版本也可以并行到上千块卡。

软件功能

PWDFT采用平面波基组、模守恒赝势(HGH或ONCV赝势)以及周期性边界条件,能够采用CPU-GPU异构并行快速实现对分子和固体体系的基态和激发态电子结构的计算。

为了从多维度满足用户需求,PWDFT提供了免费的CPU版本和特色的GPU加速版本,用户可根据自身需求选择不同版本使用。

WeChatf4725e40f70549389764f2e1c2b88aef.jpg


性能优势

与目前市场上其它主流第一性原理模拟软件相比,PWDFT具有明显的优势:

WeChat2e2ce685cb4d6acc38fa0ead57f982ce.jpg

计算体系更大:上万原子,而行业知名的第一性原理计算软件仅能计算数百原子。

计算速度更快:相同体系下,比行业知名的第一性原理计算软件行业知名的第一性原理计算软件计算速度快10-30倍。行业知名的第一性原理计算软件

功能更丰富:独创的加速算法ACE、ISDF、PC-DIIS等,此外拥有能计算更大体系激发态的TDDFT等功能。VASP目前仅有ACE功能。还支持周期性高精度复杂电子结构计算及动力学模拟(DFT, AIMD, Hybrid, HF, TDDFT, GW, MP2, RPA, CC和量子计算

扩展性更强:PWDFT能够并行CPU8000核,加速卡上千块, C/C++底层,异构并行程序架构;可采用英伟达GPU-CUDA、OpenACC 异构并行加速,而行业知名的第一性原理计算软件由于架构固化,仅支持OpenACC加速。

代码架构新,更新快:PWDFT一年一更,而行业知名的第一性原理计算软件代码架构旧(三年)。

特色:全面支持国产超算(已完成神威 Sunway和 曙光 DCU-HIP的适配,天河、华为和寒武纪进行中)

WeChat69cedd1b61b0a2dbae62bbab6b2e20aa.jpg

测试数据

为了更直观地描述PWDFT的性能优势,我们将PWDFT的CPU及DCU版本和GPU版本分别做了一系列测试。

3.1 对比并行可扩展性—CPU及DCU版本

WeChat7286d4a06ec0f10a5efa2094a8731677.jpg

测试体系:Si1000 (CPU ENCUT=10 Ha; DCU ENCUT=20)

上图分别展示了PWDFT在CPU和加速卡上的扩展性能,可以看到无论是CPU还是加速卡,在2000核/卡都保持很好的扩展性能。

3.2 对比计算速度—GPU版本

测试体系:包括Si216(Ecut=10 Hartree)、Si512(Ecut=10 Hartree)和Si1000(Ecut=5  Hartree)

测试了PWDFT和目前市场占有率第一的计算软件的GPU版本在相同硬件(NVIDIA Tesla V100 32GB)下的计算速度。测试结果如下图所示。

WeChat68141c35b71d03bc8a09861763a9665d.jpg

从图中可以看出,不论是单卡还是多卡测试,PWDFT都比目前市场占有率第一的计算软件的速度快5-30倍。这表明PWDFT相比同类软件更强的加速卡优化性能。另外,我们也可以看到,随着计算体系越大,PWDFT软件加速比优势更明显。

3.3 对比NIVIDA产品性能—GPU版本

WeChat70f20becfc11c37fce873f58b144c0b4.jpg

测试体系:Si512


为了比较NIVIDA产品的计算性能,我们分别在V100及A100上运行了PWDFT, 测试了平均一步自洽场迭代过程计算所需要的时间。从上图中,我们看到A100相对于V100计算速度可提高60%-80%, 并且不论是A100还是V100我们都可以轻松计算500多个原子以上的体系。

学术成果

如果想了解更多的关于 PWDFT的方法和程序,请参考团队如下学术成果:

[1] MPI/OpenMP实现大尺度平面波LR-TDDFT并行计算(计算机并行算法)
Lingyun Wan, Xiaofeng Liu, Jie Liu, Xinming Qin, Wei Hu and Jinlong Yang. Hybrid MPI and OpenMP parallel implementation of large-scale linear-response time-dependent density functional theory with plane-wave basis set. Electron. Struct. 3, 024004 (2021).

[2] 用投影交换子DIIS算法加速杂化泛函电子结构的计算(第一性原理理论加速算法)
Wei Hu, Lin Lin and Chao Yang, Projected Commutator DIIS Method for Accelerating Hybrid Functional Electronic Structure Calculations, J. Chem. Theory Comput. 13, 5458 (2017).

[3] GPU加速平面波LR-TDDFT计算(计算机并行算法/异构加速)
Qingcai Jiang, Lingyun Wan, Shizhe Jiao, Wei Hu, Junshi Chen and Hong An (2020, December). An Efficient Multi-GPU Implementation for Linear-Response Time-Dependent Density Functional Theory. In 2020 IEEE 22nd International Conference on High Performance Computing and Communications; IEEE 18th International Conference on Smart City; IEEE 6th International Conference on Data Science and Systems (HPCC/SmartCity/DSS) (pp. 197-205). IEEE.

[4] 采用质心Voronoi镶嵌进行插值可分离密度拟合并应用于杂化泛函计算(第一性原理理论加速算法)

Kun Dong, Wei Hu and Lin Lin, Interpolative separable density fitting through centroidal Voronoi tessellation with applications to hybrid functional electronic structure calculations, J. Chem. Theory Comput. 14, 1311 (2018).
应用
[5] 自适应压缩交换算子实现大尺度平面波杂化泛函计算并应用于研究水在硅烯上的吸附(第一性原理理论加速算法)
Wei Hu, Lin Lin, Amartya S. Banerjee, Eugene Vecharynski and Chao Yang, Adaptively compressed exchange operator for large scale hybrid density functional calculations with applications to the adsorption of water on silicene, J. Chem. Theory Comput. 13, 1188 (2017).

[6] 插值可分离密度拟合近似加速平面波杂化泛函计算并应用于研究硅缺陷(第一性原理理论加速算法)
Wei Hu, Lin Lin and Chao Yang, Interpolative separable density fitting decomposition for accelerating hybrid density functional calculations with applications to defects in silicon. Journal of chemical theory and computation, 13, 5420 (2017).
开发团队

开发人:胡伟,杨金龙,秦新明,李杰岚,万凌云,焦诗哲,张振林等

开发单位:中国科学技术大学

编程语言:C/C++

开源类型:部分开源

版本:1.0

邮箱:jielanli@mail.ustc.edu.cn,

           whuustc@ustc.edu.cn

软件试用

可联系瀚海量子进行PWDFT CPU版本和GPU版本进行试用,瀚海量子将竭诚为您服务!

WeChat25ea75d9ce49fcc5f8bbcce99fa40c3b.jpg


    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则