为了满足全校师生复杂多样的个性化计算需求,适应新型计算模式如人工智能训练等对运行环境的复杂要求,高性能计算平台的建设除了在硬件设备的选型上充分考虑了计算的多样性,提供了包含等的丰富算力组合,在软件平台的建设上也采用了区别于传统超算中心的作业调度系统的解决方案,在不损失计算性能的前提下以灵活多样的方式提供服务。
Attention
资源多≠速度快,无论使用以下哪种方式申请计算资源,并不意味着申请的资源越多,计算速度就会越快。程序必须经过并行计算优化,才能取得更快的计算速度,比如,CPU程序要经过多核优化,GPU程序要利用CUDA加速。
公共集群 | 独占/共享实例 | |
适用人群 | 对Linux命令行和作业调度系统比较熟悉。 | 不熟悉Linux,习惯交互式图形界面,计算量相对较小,使用图形界面快速实验验证一些想法。*无计算机背景的新用户建议使用这种模式。* |
应用场景 | 全校共享一个计算集群,多用户排队提交作业 | 个人独占/多人共享单节点资源 |
执行方式 | SLURM作业提交 | 交互式提交 |
节点数量 | 预分配固定节点 | 单节点 |
应用类型 | 绝大多数计算任务 | CentOS、Ubuntu系统,Jupyter、RStudio、MATLAB等有交互界面的计算任务。 |
申请资源 | 编写资源申请脚本,使用作业调度软件提交作业 | 在Web界面申请资源,使用Linux命令行或者VNC操作服务器 |
计费方式 | 从作业启动后开始计费,直到作业结束,作业结束后资源自动释放。 | 从启动计算资源开始计费,直到资源释放为止。有最长使用期限,超过最长使用期限后系统自动释放资源,用户也可以自己手动释放资源。 |
图形界面 | 不支持 | 支持 |
客户端ssh | 支持 | 支持 |
root权限 | 否 | 是 |
如上表所示,计算云主要支持两种模式:
综上,无计算机背景的新用户建议使用独占/共享实例模式。下面将分别简述两种模式的使用方法。
公共集群以传统的作业调度方式提供公共共享的计算资源,所有用户无需申请即可直接登录使用。每位用户进入平台后就已经自动分配到公共集群的项目组内,“共享资源”中的第一个项目就是公共集群。
用户在公共集群内使用资源时以作业提交的方式申请计算资源,通过作业调度系统将任务分发到计算节点上。用户在公共资源里只具有普通用户权限,可通过ssh客户端直接登录集群。
公共集群的登录节点配置了资源限制,请勿在公共集群的登录节点执行大的计算任务。
独占实例是用户独占的单机计算资源,用户在自己的独占实例中具有虚拟超级用户权限,这种资源使用方式可以提供远程桌面以满足图形化交互计算的需求。除了可以使用到普通的物理计算节点资源,这种实例可以使用到KNL节点等计算资源。
独占实例的申请流程如下:
CPU
是指实例要使用的CPU核数。
GPU
是指实例要使用的GPU卡数。如果卡数为0.x的小数点,意为共享GPU。例如0.2卡,则系统会分配给实例1/5的GPU卡。
内存
是指实例需要的内存数。
使用周期是该实例默认最长使用期限。超过该期限后,平台会自动释放该实例的计算资源。在该期限内用户可以自由使用该实例,但该实例会一直计费。用户也可以手动释放该实例的计算资源,结束对该资源的计费。
该模式从创建开始计费,直到自动或手动释放资源停止计费。为避免申请到资源不进行计算或者正在进行计算时超时系统自动回收资源,用户一定要注意“使用周期”和“通知邮箱”项,并定期查看邮箱中来自平台的通知邮件。
如果平台当前可用资源已经全部分配完毕,该实例申请后需要排队等待分配,此时无法启动实例。
sudo -i
可切换至虚拟超级用户对系统进行修改、安装软件或开发包。不同实例所能支持的操作不同。
要创建共享模式使用的实例,需要先创建共享项目。
整个申请过程和独占实例类似,不同之处在于填写实例信息时需要选定实例所归属的项目。该实例的计费均会计入该共享项目内。