Fast-AI训练服务平台-北京积算科技

产品简介

Fast-AI训练服务平台是面向人工智能训练场景的一站式AI开发、训练、推理平台，可实现容器化部署、可视化开发、数据管理、镜像仓库等，为用户提供极致高性能的AI 计算资源，实现高效的计算力支撑、精准的资源管理和调度、敏捷的数据整合及加速、流程化的AI 场景及业务整合，有效打通开发环境、计算资源与数据资源，提升开发效率。

图片1.png

产品优势

AI Infra全场景支持

覆盖大模型预训练→微调→评估→部署→Prompt管理→Chat应用，兼容Transformer/vLLM/SGlang等框架。
端到端AI模型接入、训练、微调和推理，更快投入生产。
零代码开发

开发环境秒级创建，预集成10+开源大模型、内置主流AI框架 (TensorFlow, PyTorch)、开发工具 (Jupyter/shell)、Prompt工程与Chat应用，实现大模型服务的快速使用落地。
强大调度能力

千卡级算力毫秒调度，按需分配，提升资源利用率；GPU细粒度调度，显存切片技术（支持4GB/8GB粒度），单卡24GB可拆分为3个独立切片，利用率提升40%；支持独享、共享、弹性等多种算力供给，将算力资源利用率进一步提升20%；
全面软硬件资源管理

提供各类资源的精细化管理与调度能力，并提供CPU、GPU、网络、内存、磁盘、tensor core等十余种资源实时监控能力。

产品型号

产品功能

AI训练支持

AI全流程支持：覆盖大模型预训练→微调→评估→部署→Prompt管理→Chat应用，兼容Transformer/vLLM/SGlang等框架；
交互式开发：用户通过平台可快速构建交互式AI开发环境，提供Jupyter、Webshell在线交互开发，支持对接第三方开发工具（如VSCode、PyCharm）；
分布式任务：支持AI模型的多机分布式训练，可提交Tensorflow、Caffe、pytorch、PaddlePaddle、MXNet框架的分布式训练作业，并支持MPI、PS/Worker、Master/Worker、Deepspeed、Megatron等分布式类型；
推理部署服务：支持模型部署、镜像部署、原生部署（yaml）、Helm部署等部署方式，支持服务上线过程中的离线测试、流量调节、多分桶测试、在线服务评估等全流程服务管理能力，支持服务部署后对外提供http/gRPC/tcp协议的请求。
AI服务支持

强大调度能力：千卡级算力毫秒调度，按需分配，提升资源利用率；
断点续训：Checkpoint整合K8s状态监控，服务器宕机/掉卡时任务自动迁移续训，中断恢复时间<5分钟；
GPU细粒度调度：显存切片技术（支持4GB/8GB粒度），单卡24GB可拆分为3个独立切片，利用率提升40%；
实时资源管理：支持以集群视图、节点视图、加速卡视图查看集群整体运行情况，提供不同层级的监控信息查看，提供GPU、CPU、内存、IB/RoCE网络、存储等关键设施的性能曲线、图表展示；
多租户管理：平台设置系统管理员、组管理员、普通用户、审计员角色，支持不用业务模块的使用权限控制，支持业务流程审批，支持用户的资源配额设置，支持用户的批量管理；