近日,北京积算科技有限公司(以下简称“积算科技”)算力服务平台全面集成SGLang-diffusion推理加速技术。通过这一行业首创的加速引擎,积算科技将当前顶级模型Wan 2.2生成720p视频的时间,从传统的40分钟缩短至60秒以内,推理效率提升约40倍。该技术现已在积算科技算力服务平台上线。开发者无需关心繁琐的底层部署,通过平台预设的高性能镜像,即可直接调用这一行业领先的加速能力,助力大规模视觉内容生产步入“高效率、低成本”的新阶段。
尽管视频生成已经迎来了“iPhone时刻”,但百亿参数模型的商业化落地仍面临严峻挑战。主流视频生成模型Wan 2.2的单次生成成本约0.30-0.66美元,Sora更是达到1.30美元,高昂的算力开销阻碍了规模化应用。与语言模型不同,视频生成模型计算密度极大,显存需求随视频分辨率或时长呈指数级增长,极易引发显存“爆仓”(OOM)。
SGLang-diffusion针对大模型视频生成中的显存瓶颈与推理延迟难题,通过智能对模型权重的智能卸载,显著降低显存峰值,让生成更高分辨率、更长时长的视频成为可能。通过序列并行、张量并行及混合并行,把视频生成推理从单机单卡扩展到单机多卡和多机多卡,通过智能缓存并复用高频特征,有效规避冗余计算,从而实现视频生成效率的倍速飞跃。
基于积算科技算力服务平台的wan2.2生成视频效果
积算科技率先引入并深度优化了SGLang-diffusion推理加速引擎,利用自身在大规模并行环境部署上的工程优势,迅速完成了从软件到硬件的深度适配。这一极速落地的背后,是积算科技全系列企业级高性能GPU的硬实力支撑——平台不仅拥有足以容纳Wan 2.2等百亿参数大模型的海量显存和高速互联,更提供极高的FP32/FP16混合精度算力,能精准匹配视频生成模型在VAE编解码、DiT扩散去噪等各阶段的复杂计算和高速通信需求需求。
通过积算科技算力服务平台,用户可一键启用SGLang-diffusion,享受流畅的视频生成体验。在该平台上对当前业界最受关注的SOTA模型——Wan 2.2的实测数据显示:生成720p高清视频的推理时间,从原来的40分钟大幅缩短至1分钟以内。借助积算科技优化的SGLang并行加速环境,原本在传统单卡模式下极其耗时的渲染过程,现在仅需数十秒即可完成,真正实现了生产效率的飞跃。
为了满足专业创作者和工作流开发者的需求,积算科技不仅提供SGLang-Diffusion的基础镜像,更在平台层面实现了ComfyUI与SGLang-diffusion的深度协同。用户可以继续使用熟悉的ComfyUI可视化界面自由构建复杂的视频生成 Pipeline,同时将繁重的推理任务无缝卸载至后端的SGLang高性能服务集群。这种黄金组合,让用户既保留了工作流的灵活性,又享受到了企业级的并发处理能力和推理速度,彻底解决了ComfyUI在大规模批量生成时的性能瓶颈。

使用ComfyUI集成SGLang-diffusion搭建视频生成流程
目前,这一深度适配的高性能推理服务已正式登陆积算科技算力服务平台,全面开放即时部署体验。积算科技算力服务平台已完成对 Wan (万相)、Hunyuan (混元)等前沿视频生成模型,以及FLUX、Qwen-Image、GLM-Image、Z-Image等图像生成模型的全方位适配与优化。这一全栈式的模型支持能力,能够精准覆盖短剧广告自动化、游戏动态资产生成及电商视频批量生产等核心场景,助力企业真正实现从创意到交付的极速迭代。
点击以下链接,免费在线体验SGLang-diffusion:
积算科技诞生于全球生成式AI浪潮,专注于智能算力服务市场,致力于成为中国最具价值的智能算力服务商。公司聚焦互联网、运营商、高校、新能源汽车等领域,为多家头部客户提供专业算力服务。积算科技拥有万卡级先进智能算力资源池,提供裸金属、智能算力系统、专属智能算力系统等多元化算力服务产品,广泛适用于大模型训练与推理、算法研究、大数据分析、自动驾驶及智能科学计算等场景。其运维和服务团队具备大规模智能算力系统设计建设、大模型开发应用及性能优化能力,可提供全栈大模型应用开发服务支持,并根据客户需求提供灵活的服务模式。