Speed-科学计算平台是一款为科学计算设计的高性能计算解决方案。系统支持上万节点集群调度、30万作业的并发提交。内置回填、抢占、资源预留等丰富的调度策略;支持容器化运行环境,具有GPU应用支持、多租户管理、全面业务性能查看等功能。
该平台采用开源 Slumm 架构,可实现集群管理的高度可扩展、作业调度的容错性和资源的细粒度管理等功能,适用于大型或小型 Linux 集群。
支持通过作业脚本、可视化作业模板以及容器方式提交作业,增强用户的易用性。作业模板可自定义入参,提高作业模板的灵活性,方便用户使用。基于容器提交作业,可屏蔽作业运行环境的差异,兼容更多应用。
作业调度:基于Slurm深度优化,支持大规模的作业调度
可视化任务提交:支持可视化作业模板、容器化作业(Docker/Singularity)及任务提交
灵活策略:节点独占/共享、GPU卡级调度、循环作业、优先级回填等
任务管理:实时跟踪作业生命周期(状态、时长、资源占用)
多租户管理:三权分立角色,超级管理员/组织管理员/普通用户
秒级采集硬件指标:CPU/内存/磁盘IO/网络/GPU温度/显存/IB网卡
多层级告警:作业超时、失败、设备异常(集成ISPIM故障诊断)