0%

Collectl在TH-ES上的使用

系统登录使用方法请参考:

加载

1
module add collectl

运行

拷贝脚本

进入脚本目录:

1
cd $COLLECTL_HOME/scripts

拷贝需要的脚本到算例的目录,例如我们使用template目录下的脚本:

1
2
cp $COLLECTL_HOME/scripts/template/* .
chmod +x collectl-*

修改相关参数

依据不同任务,修改collectl-run.sh脚本参数,包括:

  • partition 计算分区,可用yhi查看可用分区。(通常为TH_ES,无需修改)
  • nodes 运行节点数
  • cpuspernode 每个节点运行的核数(不要超过28核)
  • OMP_NUM_THREADS 设置线程数(通常mpi任务设置为1即可)
  • exe 运行命令及相关参数,例如a.out < input.txt > out.log。(写的是实际运行的命令,而不是提交脚本或类似 yhrun -N 1 -n 28 a.out < input.txt > out.log)

这一步是主要工作,不同任务的运行主要就是修改运行的软件和命令。软件自身运行需要的环境变量,请提前自行加载好。

提交任务

直接执行该脚本

1
./collectl-run.sh

会获得jobid号,例如:14570273。

使用 yhq 查看任务状态, PD 为等待, R 为运行, 如果任务消失则表示结束。

分析数据

等待任务结束后,分析数据,运行脚本:

1
./collectl-analysis.sh nodesfile-14570273

说明:

  • nodesfile-14570273 为运行得到的节点编号文件,请依据实际 jobid 进行修改。

分析结果类似:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
==============================================================
This is collectl script --- analysis calculate node messages.
==============================================================
Job Start Time = 2019-10-23 12:06:43
JOb ID = 14570273
Computing partition = TH_ES
Number of nodes = 2
Number of processes = 56
Tasks Per Node = 28(x2)
SLURM_NODELIST = cn[21-22]
Submit Directory = /THL5/home/zhenggang/workdir/colleclt/lmp
Report File = report.txt
--------------------------------------------
Analyzing nodesfile-1864420 cn21
Operation Max Min Mean
CPU USAGE(%) 100.00 0.00 100.00
MEMORY(MB) 6663.00 6663.00 6663.00
NetworkIn(KB/s) 0.00 0.00 0.00
NetworkIn(count/s) 0.00 0.00 0.00
NetworkOut(KB/s) 0.00 0.00 0.00
NetworkOut(count/s) 0.00 0.00 0.00
IORead(KB/s) 320.00 0.00 7.50
IORead(count/s) 65.00 8.00 14.29
IOWrite(KB/s) 32.00 0.00 2.73
IOWrite(count/s) 59.00 0.00 2.00
--------------------------------------------
Analyzing nodesfile-1864420 cn22
Operation Max Min Mean
CPU USAGE(%) 100.00 0.00 100.00
MEMORY(MB) 6663.00 6663.00 6663.00
NetworkIn(KB/s) 0.00 0.00 0.00
NetworkIn(count/s) 0.00 0.00 0.00
NetworkOut(KB/s) 0.00 0.00 0.00
NetworkOut(count/s) 0.00 0.00 0.00
IORead(KB/s) 320.00 0.00 7.37
IORead(count/s) 65.00 8.00 14.24
IOWrite(KB/s) 32.00 0.00 2.67
IOWrite(count/s) 59.00 0.00 1.96
--------------------------------------------

说明:

  1. CPU USAGE(%) 为CPU 使用率
  2. MEMORY(MB) 为内存使用量
  3. Network 为网络通信数据, KB/s 每秒通信量, count/s 每秒通信次数
  4. IORead, IOWrite 为IO读写情况
  5. 程序会生成png图片用于分析

视频教学

TH-1A系统版本, TH_ES系统类似