系统登录使用方法请参考:超算入门课程概述

加载

module add collectl

运行

拷贝脚本

进入脚本目录:

cd $COLLECTL_HOME/scripts

拷贝需要的脚本到算例的目录,例如我们使用template目录下的脚本:

cp $COLLECTL_HOME/scripts/template/* .
chmod +x collectl-*

修改相关参数

依据不同任务,修改collectl-run.sh脚本参数,包括:

  • partition 计算分区,可用yhi查看可用分区。(通常为TH_ES,无需修改)
  • nodes 运行节点数
  • cpuspernode 每个节点运行的核数(不要超过28核)
  • OMP_NUM_THREADS 设置线程数(通常mpi任务设置为1即可)
  • exe 运行命令及相关参数,例如a.out < input.txt > out.log。(写的是实际运行的命令,而不是提交脚本或类似 yhrun -N 1 -n 28 a.out < input.txt > out.log)

这一步是主要工作,不同任务的运行主要就是修改运行的软件和命令。软件自身运行需要的环境变量,请提前自行加载好。

提交任务

直接执行该脚本

./collectl-run.sh

会获得jobid号,例如:14570273。

使用 yhq 查看任务状态, PD 为等待, R 为运行, 如果任务消失则表示结束。

分析数据

等待任务结束后,分析数据,运行脚本:

 ./collectl-analysis.sh nodesfile-14570273

说明:

  • nodesfile-14570273 为运行得到的节点编号文件,请依据实际 jobid 进行修改。

分析结果类似:

==============================================================
This is collectl script --- analysis calculate node messages.
==============================================================
Job Start Time       = 2019-10-23 12:06:43
JOb ID               = 14570273
Computing partition  = TH_ES
Number of nodes      = 2
Number of processes  = 56
Tasks Per Node       = 28(x2)
SLURM_NODELIST       = cn[21-22]
Submit Directory     = /THL5/home/zhenggang/workdir/colleclt/lmp
Report File          = report.txt
--------------------------------------------
Analyzing nodesfile-1864420 cn21
         Operation          Max        Min       Mean
         CPU USAGE(%)    100.00       0.00     100.00
          MEMORY(MB)    6663.00    6663.00    6663.00
     NetworkIn(KB/s)       0.00       0.00       0.00
  NetworkIn(count/s)       0.00       0.00       0.00
    NetworkOut(KB/s)       0.00       0.00       0.00
 NetworkOut(count/s)       0.00       0.00       0.00
        IORead(KB/s)     320.00       0.00       7.50
     IORead(count/s)      65.00       8.00      14.29
       IOWrite(KB/s)      32.00       0.00       2.73
    IOWrite(count/s)      59.00       0.00       2.00
--------------------------------------------
Analyzing nodesfile-1864420 cn22
         Operation          Max        Min       Mean
         CPU USAGE(%)    100.00       0.00     100.00
          MEMORY(MB)    6663.00    6663.00    6663.00
     NetworkIn(KB/s)       0.00       0.00       0.00
  NetworkIn(count/s)       0.00       0.00       0.00
    NetworkOut(KB/s)       0.00       0.00       0.00
 NetworkOut(count/s)       0.00       0.00       0.00
        IORead(KB/s)     320.00       0.00       7.37
     IORead(count/s)      65.00       8.00      14.24
       IOWrite(KB/s)      32.00       0.00       2.67
    IOWrite(count/s)      59.00       0.00       1.96
--------------------------------------------

说明:

  1. CPU USAGE(%) 为CPU 使用率
  2. MEMORY(MB) 为内存使用量
  3. Network 为网络通信数据, KB/s 每秒通信量, count/s 每秒通信次数
  4. IORead, IOWrite 为IO读写情况
  5. 程序会生成png图片用于分析

视频教学

TH-1A系统版本, TH_ES系统类似