系统登录使用方法请参考:超算入门课程概述

加载

module add collectl

运行

拷贝脚本

拷贝脚本到算例的目录

cp $COLLECTL_HOME/scripts/v1.0/* .

修改相关参数

依据不同任务,修改collectl-run.sh脚本参数,包括:

  • partition 计算分区,可用yhi查看可用分区。
  • nodes 运行节点数
  • cores 运行总核数
  • exe 运行命令及相关参数,例如lmp < in.lj > out.log。(写的是实际运行的命令,而不是提交脚本或类似 yhrun -N1 exe)
  • OMP_NUM_THREADS 设置线程数

提交任务

直接执行该脚本

./collectl-run.sh

会获得jobid号,例如:14570273。

使用 yhq 查看任务状态, PD 为等待, R 为运行, 如果任务消失则表示结束。

分析数据

等待任务结束后,分析数据,运行脚本:

 ./collectl-analysis.sh nodesfile-14570273

说明:

  • nodesfile-14570273 为运行得到的节点编号文件,请依据实际 jobid 进行修改。

分析结果类似:

This is collectl script --- analysis calculate node messages.
Analyzing nodesfile-14570273 cn2021
         Operation          Max        Min       Mean
         CPU USAGE(%)     33.00       0.00       5.43
          MEMORY(MB)    6144.00    5120.00    5266.29
     NetworkIn(KB/s)       0.00       0.00       0.00
  NetworkIn(count/s)       0.00       0.00       0.00
    NetworkOut(KB/s)       0.00       0.00       0.00
 NetworkOut(count/s)       0.00       0.00       0.00
        IORead(KB/s)    5075.00      12.00    2179.29
     IORead(count/s)    1394.00      46.00     632.29
       IOWrite(KB/s)     372.00       4.00     178.86
    IOWrite(count/s)    1256.00      44.00     548.43
Plt cn2021.log_cpuuse.png

说明:

  1. CPU USAGE(%) 为CPU 使用率
  2. MEMORY(MB) 为内存使用量
  3. Network 为网络通信数据, KB/s 每秒通信量, count/s 每秒通信次数
  4. IORead, IOWrite 为IO读写情况
  5. 程序会生成png图片用于分析

视频教学