独占集群多节点任务使用方法

1.申请独占集群

申请的集群中,默认包含1个头节点和1个计算节点,用户可以根据需要自行扩展,目前扩展限制最多计算节点5个,即共享集群最大规模1个头节点和5个计算节点。如图:

private cluster nodes

2.配置MPI多节点运行文件,即machinefile。新建节点文件mfmf文件内容如下:

1n1
2n2
3n3
4n4
5n5

n1-n5为共享集群节点名字

  1. 新建脚本文件。以下以WRF为示例,文件名为wrf.job

1source /opt/intel/bin/compilervars.sh intel64 2>/dev/null
2export LD_LIBRARY_PATH=/opt/app/wrf/lib/lib:$LD_LIBRARY_PATH
3mpirun -np 200 –machinefile mf ./wrf.exe

其中-machinerfile可以指定程序在哪些节点上运行,mf为上一步中建立的节点文件。

-np是进程数。

注意

不建议将头节点作为计算节点,否则会内存不足报错会强制退出。

  1. 给脚本wrf.job赋予可执行权限

    chmod +x wrf.job,
    
  2. 后台运行作业

    nohup ./wrf.job &
    
  3. ssh n1-n5节点看作业是否运行成功。