首页 > 新闻中心 > DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表,全网在蹲R2和V4

DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表,全网在蹲R2和V4

2025-08-22

 转载自:新智元  

编辑:桃子 定慧

原文链接:DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表,全网在蹲R2和V4


就在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k。


本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。

综合公开信息和国内大咖karminski3的实测,V3.1此次更新亮点有:

  • 编程能力:表现突出,根据社区使用Aider测试数据,V3.1在开源模型中霸榜。

  • 性能突破:V3.1在Aider编程基准测试中取得71.6%高分,超越Claude Opus 4,同时推理和响应速度更快。

  • 原生搜索:新增了原生「search token」的支持,这意味着搜索的支持更好。

  • 架构创新:线上模型去除「R1」标识,分析称DeepSeek未来有望采用「混合架构」。

  • 成本优势:每次完整编程任务仅需1.01美元,成本仅为专有系统的六十分之一。

值得一提的是,官方群中强调拓展至128K上下文,此前V3版本就已经支持。

图片



对于这波更新,大家的热情可谓是相当高涨。

即便还未公布模型卡,DeepSeek V3.1就已经在Hugging Face的趋势榜上排到了第四。



图片

图片



DeepSeek粉丝数已破8万

看到这里,网友们更期待R2的发布了!



图片





混合推理,编程击败Claude 4




这次最明显的变化是,DeepSeek在官方APP和网页端上,把深度思考(R1)中的「R1」去掉了。



图片



同时,与V3-base相比,DeepSeek V3.1新增了四个特殊Token:

  • <|search▁begin|> (id: 128796)

  • <|search▁end|> (id: 128797)

  • <think> (id: 128798)

  • </think> (id: 128799)




图片



对此,有推测认为,这可能暗示推理模型与非推理模型的融合。



图片



在编程方面,根据网友曝出的结果,DeepSeek V3.1在Aider Polyglot多语言编程测试中拿下了71.6%高分,一举击败了Claude 4 Opus、DeepSeek R1。



图片


参考资料:HYX
https://weibo.com/2169039837/Q0FC4lmeo  
https://x.com/karminski3/status/1957928641884766314  
https://github.com/johnbean393/SVGBench/  
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

转载自微信公众号:新智元         

版权归属原作者及原始发布媒体所有。转载旨在信息分享,不代表本平台观点,亦不对内容真实性负责。若涉及版权或其他权益争议,请权利人及时联系(联系方式:zhengbinyu@icompify.com),我们将立即核实并处理。