集群信息

  1. CPU集群GPU集群的作业最长运行时间限制为7天,超过7天的作业会被自动杀死。

  2. CPU集群的资源划分为两个分区,分别是smalljobcpu

    smalljob分区用于处理单进程类型的任务,在作业脚本开头使用#SBATCH --partition=smalljob使用该分区。

    系统会将smalljob分区中的多个作业运行在同一个节点上以提升资源利用率。

    如果不指定--partition参数,默认使用cpu分区。

  3. GPU集群的资源划分为两个分区:gpu1gpu2

    GPU节点1-4在gpu1分区中,GPU节点5-8在gpu2分区中。

    其中gpu1分区中的资源以gpu卡为单位分配,不能跨节点,一个节点可以跑多个作业。

    gpu2分区中的资源以节点为单位分配,一个节点资源只会分配给一个作业,但一个作业可以分布在多个节点上。 gpu2分区支持多机多卡作业。

    gpu partition

    GPU集群中提交作业必须通过--gres=gpu:N参数指定申请的gpu卡的数量N

集群配置信息和作业提交请参考作业系统