独占集群多节点任务使用方法
1.申请独占集群。
申请的集群中,默认包含1个头节点和1个计算节点,用户可以根据需要自行扩展,目前扩展限制最多计算节点5个,即共享集群最大规模1个头节点和5个计算节点。如图:
2.配置MPI多节点运行文件,即machinefile
。新建节点文件mf
,mf
文件内容如下:
1n1 2n2 3n3 4n4 5n5n1-n5为共享集群节点名字
新建脚本文件。以下以WRF为示例,文件名为
wrf.job
:
1source /opt/intel/bin/compilervars.sh intel64 2>/dev/null 2export LD_LIBRARY_PATH=/opt/app/wrf/lib/lib:$LD_LIBRARY_PATH 3mpirun -np 200 –machinefile mf ./wrf.exe其中
-machinerfile
可以指定程序在哪些节点上运行,mf
为上一步中建立的节点文件。
-np
是进程数。
注意
不建议将头节点作为计算节点,否则会内存不足报错会强制退出。
给脚本
wrf.job
赋予可执行权限chmod +x wrf.job,
后台运行作业
nohup ./wrf.job &
ssh n1-n5
节点看作业是否运行成功。