专属智算集群算力

产品简介

依托丰富的IDC建设经验和强大硬件研发能力,支持最广泛的多元算力,业界领先的AI&HPC服务器研发能力和产品布局,为客户提供定制化的专属智算集群。

产品优势
  • 定制化集群建设服务

    提供集群基础设施、服务器各部件选型、调度平台等全栈解决方案,助力客户打造专属智算集群

  • 多元算力

    业界领先的AI服务器研发能力及产品布局

  • 运维无忧

    7x24h原厂运维工程师维保服务,7*24小时在线运维、关键时刻重大保障、故障处理

  • 高性价比

    裸金属算力服务提供灵活租期(月/季/年),降低大额投资压力,减轻采购运维成本

应用场景
  • 车企、自动驾驶、智能座舱
  • 制造、机器人、具身智能
  • 金融通信
  • 互联网
智算集群建设架构

imges.png


服务名称具体内容
服务基础包

1.1 基础的运维保障(7*24小时在线运维、关键时刻重大保障、故障处理等服务)、基础网络接入(VPN接入、网互联)、基础安全防护(符合等保3级的防护)

1.2 PODSyS:若客户自行安装,可提供电话支持服务等服务,也可由协助安装,提供整合大模型算力平台部署所需的数十个驱动、软件等安装包以及对应的依赖和兼容关系,简化部署过程

备机服务(可选)

2.1 冷备:预留相关服务器配件,如网卡、GPU、内存等,出现服务器宕机、掉卡等故障时,由驻场运维工程师进行维修、处理

2.2 热备:增加服务器备机,纳入集群,由调度平台统一管理,训练时动态调度,GPU或服务器故障时自动恢复任务

基础环境调优(可选)基于自有大模型训推经验,定位并处理用户在大模型训练过程中遇到的算力吞吐不足的问题,提供包括NCCL网络调优、存储I/0调优等,帮助用户充分利用购买的算力资源,提升训练效率;提供部署以及基础环境调优、如GPU性能网络带宽值
应用迁移服务(可选)针对训练场景,协助用户将现有数据管理\模型管理\模型训练等业务流程迁移到平台,确保用户通过平台快速启动模型训练;针对推理场景,根据用户AI应用启动环境提供部署方案(目录载/环境变量/端口设置等),协助用户将AI应用部署到平台
驻场运维(可选)结合实际情况提供2-4人的现场驻场人员服务支持,处理已购硬件故障及平台问题
一站式定制服务提供硬件、软件、组网、存储、安全、机房等集群建设全栈方案


7*24
小时服务
service@icompify.com

Copyrght@2024 北京积算科技有限公司 京ICP备2024061291号-1 京公网安备11010802045171号