SLURM术语表

队列或分区 (partition)

对节点的逻辑分组,可设置资源限制、访问权限、优先级等。分区可重叠,提供类似于队列的功能 。使用分区名字标识,如CPU、GPU等

节点 (node)

通常对应集群中的一台物理机。节点含处理器、内存、磁盘空间等资源,具有空闲、分配、故障等状态。通常以字母+数字的方式编号,如n102

作业 (job)

一次资源分配。通过sallocsbatchsrun命令提交到一个队列中。不能跨队列提交。由调度管理系统排队调度后分配资源运行。通过作业ID标识,如123

作业步 (jobstep)

通过srun进行的任务加载,一个作业 (job)可包含多个作业步,可并发运行。作业步可只使用作业中的部分节点。在作业内通过作业步ID标识,如123.0

任务数 (task)

单个作业或作业步可有多个任务。一般一个任务需一个CPU核, 可理解为所需的CPU核数。

CPU插槽 (socket)

CPU插槽数,可以简单理解为CPU颗数。单个CPU颗数中有多个CPU核。

CPU核 (core)

单颗CPU可以具有多颗CPU核。