国产软硬件生态融合2:华为鲲鹏920处理器上ABACUS平面波基组的测试
作者:张笑扬,邮箱:zxypku21@stu.pku.edu.cn
审核:周徐源,邮箱:xy_z@pku.edu.cn
审核:蒋巩明,邮箱:jianggongming@huawei.com
审核:陈默涵,邮箱:mohanchen@pku.edu.cn
最后更新时间:2026/06/08
本篇介绍ABACUS在华为鲲鹏920处理器上的平面波基组测试情况,关于ABACUS在华为鲲鹏920处理器上的编译请参见本系列前一篇国产软硬件生态融合1:ABACUS基于华为鲲鹏920处理器的编译和使用指南
一、测试环境:
使用abacus-develop的release页面的3.9.0.25,编译abacus_2p可执行文件
对比环境:台式机工作站。(Intel Xeon Gold 6132,以下简称6132)
920新型号比较:4进程4线程 / 8进程2线程(部分大算例4*4运行较缓慢)。6132和新型号运行方式示例:
export OMP_NUM_THREADS=4
mpirun -np 4 abacus
- 920专业版比较:针对其众核特性,使用单节点满载性能进行比较。
6132:28进程运行。920专业版:取运行速度最快的单节点进程数作为参考。专业版运行方式示例:
export KML_FFT_THREAD_TYPE=OMP
export KML_BLAS_THREAD_TYPE=OMP
export OMP_NUM_THREADS=2
mpirun --map-by ppr:4:numa:pe=2 -np 8 abacus
二、总结表格
920新型号测试表格
920新型号和6132使用相同进程数+线程数进行效率测试。001和002算例为44,后面的算例均为82
| 算例 | 001_4GaAS | 002_C2H6O | 003_4MoS2 | 004_12Pt111 | 005_3BaTiO3 | 006_16Na | 007_27Fe | 008_32H2O | 009_Li27Ni9O5Mn9Co9 | 010_216Si |
|---|---|---|---|---|---|---|---|---|---|---|
| 6132耗时/s | 59 | 607 | 1041 | 917 | 8828 | 979 | 9955 | 4444 | 6761 | 2059 |
| 920新型号耗时/s | 42 | 274 | 352 | 315 | 3217 | 772 | 3542 | 120 | 1982 | 520 |
| 加速比 | 1.4 | 2.2 | 3.0 | 2.9 | 2.7 | 1.3 | 2.8 | 3.7 | 3.4 | 3.9 |
920专业版测试表格
920专业版由于其架构原因,不宜进行相同进程数与线程数的计算比较,这里比较单节点的性能峰值。
| 算例 | 001_4GaAS | 002_C2H6O | 003_4MoS2 | 004_12Pt111 | 005_3BaTiO3 | 006_16Na | 007_27Fe | 008_32H2O | 009_Li27Ni9O5Mn9Co9 | 010_216Si |
|---|---|---|---|---|---|---|---|---|---|---|
| 6132耗时/s | 31 | 496 | 833 | 656 | 7725 | 589 | 9772 | 447 | 6189 | 2103 |
| 920专业版耗时/s | 54 | 84 | 231 | 178 | 1885 | 778 | 2056 | 54 | 579 | 236 |
| 加速比 | 0.57 | 5.9 | 3.6 | 3.7 | 4.1 | 0.76 | 4.7 | 8.8 | 10.7 | 8.9 |
001_4GaAs(4*4)920新型号测试:加速1.4倍
920新型号结果:42 s

对照组结果:59 s

002_C2H6O(4*4)920新型号测试:加速2.2倍
920新型号结果:274 s


对照组结果:607 s


003_4MoS2(8*2)920新型号测试:加速3.0倍
920新型号结果:352 s


对照组结果:1041 s


004_12Pt111(8*2)920新型号测试:加速2.9倍
920新型号结果:315 s


对照组结果:917 s


005_3BaTiO3(8*2)920新型号测试:加速2.7倍
920新型号结果:3217 s


对照组结果:8828 s


006_16Na(8*2)920新型号测试:加速1.3倍
920新型号结果:772 s


对照组结果:979 s


007_27Fe(8*2)920新型号测试:加速2.8倍
920新型号结果:3542 s


对照组结果:9955 s


008_32H2O(8*2)920新型号测试:加速3.7倍
920新型号结果:120 s


对照组结果:444 s


009_Li27Ni9O54Mn9Co9(8*2)920新型号测试:加速3.4倍
920新型号结果:1982 s


对照组结果:6761 s


010_216Si(8*2)920新型号测试:加速3.9倍
920新型号结果:520 s


对照组结果:2059 s


920新型号测试总结
效率
在相同进程数和线程数的情况下,鲲鹏920型号比起6132工作站CPU有非常明显的优势。在所有的算例上都产生了明显的加速效果。面对较大的算例,普遍都能产生两倍以上的加速效果。并且这是开箱即用的结果,没有进行任何针对性优化,优化后效率预期会有进一步提升。
精度
能量误差在输出位数范围内基本可忽略。
总压力大约有0.001 kbar左右的误差。
001_4GaAs 920专业版测试:32进程2线程,加速0.57倍
920专业版结果:54 s

对照组结果:31 s


002_C2H6O 920专业版测试:114进程,加速5.9倍
920专业版结果:84 s


对照组结果:496 s


003_4MoS2 920专业版测试:76进程 ,加速3.6倍
920专业版结果:231 s


对照组结果:833 s


004_12Pt111 920专业版测试:76进程,加速3.7倍
920专业版结果:178 s


对照组结果:656 s


005_3BaTiO3 920专业版测试:76进程 ,加速4.1倍
920专业版结果:1885 s


对照组结果:7725 s


006_16Na 920专业版测试:40进程 2线程 加速0.76倍
920专业版结果:778 s

对照组结果:589 s


007_27Fe 920专业版测试:76进程 加速4.8倍
920专业版结果:2056 s


对照组结果:9772 s


008_32H2O 920专业版测试:76进程 加速8.8倍
920专业版结果:54 s


对照组结果:447 s


009_Li27Ni9O54Mn9Co9 920专业版测试:76进程 加速10.7倍
920专业版结果:579 s


对照组结果:6189 s


010_216Si 920专业版测试:114进程 加速8.9倍
920专业版结果:236 s

对照组结果:2103 s


920专业版测试总结
效率
在相同进程数和线程数的情况下,鲲鹏920专业版比起6132工作站CPU有非常明显的优势。在绝大部分算例上都产生了明显的加速效果。对于几个尤其大的算例,能够产生接近十倍的加速比。并且这也是开箱即用的结果,没有进行任何针对性优化,优化后效率预期会非常优异。
精度
能量误差在输出位数范围内基本可忽略。
总压力大约有0.001 kbar左右的误差。