集群信息
CPU集群和GPU集群的作业最长运行时间限制为7天,超过7天的作业会被自动杀死。
CPU集群的资源划分为两个分区,分别是
smalljob
和cpu
。smalljob
分区用于处理单进程类型的任务,在作业脚本开头使用#SBATCH --partition=smalljob
使用该分区。系统会将
smalljob
分区中的多个作业运行在同一个节点上以提升资源利用率。如果不指定
--partition
参数,默认使用cpu
分区。GPU集群的资源划分为两个分区:
gpu1
和gpu2
。GPU节点1-4在
gpu1
分区中,GPU节点5-8在gpu2
分区中。其中
gpu1
分区中的资源以gpu卡为单位分配,不能跨节点,一个节点可以跑多个作业。gpu2
分区中的资源以节点为单位分配,一个节点资源只会分配给一个作业,但一个作业可以分布在多个节点上。gpu2
分区支持多机多卡作业。在GPU集群中提交作业必须通过
--gres=gpu:N
参数指定申请的gpu卡的数量N
。
集群配置信息和作业提交请参考作业系统。