Deepseek-V3.1编程能力大挑战：与Qwen3、GLM-4.5、Kimi K2实测对比，谁是最强AI编程助手？

本文对比评测了Deepseek-V3.1、KimiK2、GLM-4.5、Qwen3-coder-plus四款国产AI编程模型，通过前端开发、算法实现等任务测试其性能。结果显示：Deepseek-V3.1在工程能力上与GLM-4.5相当，略优于Qwen3；GLM-4.5前端表现最佳；KimiK2生成速度最快但费用最高。测试发现国产模型在复杂任务上与Claude等国际模型仍有差距，但价格优势明显。文章

LLand520

2195人浏览 · 2025-08-26 09:49:37

LLand520 · 2025-08-26 09:49:37 发布

谁能想到8月21日那天，只是随手点开了微信群的一张图片，却看到一个还算蛮重磅的信息，Deepseek-V3.1发布了！

要知道，按今年二月份Deepseek的现象级传播程度，只要deepseek发布带版本号的更新，必然会是引发一系列讨论。

这次虽然只是+0.1的版本号，但发布后还是有很多人想知道V3.1版本有什么亮点，不少群里也看到大家都在问V3.1的编程能力上有什么提升。

还有大家最关心的Deepseek-V3.1和过去一个月内发布的千问Qwen3-coder、月之暗面KIMI K2以及智谱GLM-4.5相比，究竟哪个是国产最强编程模型？

正好这四个模型都提供了Anthropic API调用格式的支持，我花了两天时间，用Claude code接入四个模型的官方API进行测试，希望在国产编程模型火热发展的当下，给大家提供一点使用参考。

正式对比前，先看Deepseek-V3.1这次更新的内容：

简单来说，有三点：

一、V3.1变成混合推理

同时支持思考模式与非思考模型，相比Deepseek-R1的思考效率会更高；

官网和App的深度思考按钮，也不再显示R1

二、工具调用和编程能力有所提升

从评测集分数相比老版本的V3和R1都有一定涨幅，干活能力变强了

三、上下文扩展为128K，对于复杂场景和长文本处理会更友好。

正式测试

下面开始正式测试，使用Claude code调用各模型的官方API，分别从UI能力、任务理解、算法角度进行对比。同时，也会记录每个任务的Token使用量与费用，作为辅助参考。

我觉得只有模型能力和价格相匹配，才算一个真正能作为主力使用优质模型。

毕竟AI编程不同于AI写作、AI生图等场景，开发过程中可能只是阅读一个项目已有的代码，就能消耗上千万的token，活还没开始干，账单金额刷刷跑，谁可都不想随手发一条提示词，直接快进到卖房换债。

1.前端UI能力对比

快速判断一个编程模型的能力，开发前端界面是最直接的方式，这也是目前编程模型做的还算比较好的地方。

前段时间，苹果发布了全新系统，使用液态玻璃（Liquid Glass）作为新设计，让AI模型复刻玻璃效果和苹果动效，也算是一个有点挑战的任务。

考虑到像Deepseek是不具备多模态能力的，不能用图片作为参考，我让Gemini-2.5-pro写了一段提示词：开发一个液态玻璃风格的浏览器主页界面。

Deepseek-V3.1

Deepseek-V3.1完成的第一版界面有点平淡，似乎没有理解到液态玻璃效果的精髓。

我不得不补充一句提示词：背景要采用苹果风格的炫彩色，并且液态玻璃效果要更加明显。

第二版美观度感觉就好得多了，也添加了边框细节和卡片的点击动效。

Kimi K2

第二个来看看Kimi K2的效果，玻璃的模糊感不是很明显，而且卡片按钮的圆角曲率有点小，导致看着会比较生硬。但胜在一次成功，整体还是不错的。

GLM-4.5

GLM-4.5是让我有点意外的，首先是背景图，我配置有Playwright MCP，它能主动去下载图片作为背景图；

并且交互动效是几个模型里做的最完善的，鼠标点击卡片框边缘，会有动态变化，从完成度上，智谱GLM模型是最好的。

Qwen3-coder-plus

Qwen3-coding-plus的前端开发能力，可能它不是最擅长的地方。为了控制变量，我始终用同一台电脑进行测试，但只有Qwen3-coder反复出现工具调用失败，并且无法成功引入icon图标。

修改了2次，变化不是很大，出现几次写入文件失败，Token又嘎嘎消耗的情况，一个项目干掉将近500万Token，尝试重启claude code和初始化后，依旧出现，无奈能先暂且如此（可能只是个例）。

Claude-sonnet-4

本来只想做国产模型混战，但感觉大家还是会好奇如果是Claude code搭配claude-sonnet-4模型，会是什么效果，我同一样的提示词试了一下，这是第一版一次成功的成果。

底部有点瑕疵，但苹果风格、液态玻璃以及动效，claude-4终究还是强。

2.工程&算法能力

第二个任务是开发一个路径规划算法的可视化展示平台。

开发一个专业的交互式路径规划算法可视化教学平台，需实现以下核心功能与技术指标：1. **核心功能要求**：   - 支持多种经典路径规划算法（如Dijkstra、A*、RRT等）的可视化演示   - 提供交互式地图编辑功能，允许用户自定义起点、终点和障碍物布局   - 实现算法执行过程的逐步可视化，包括节点扩展、路径评估等关键步骤2. **技术指标要求**：   - 采用现代Web技术栈（如React/Vue+Canvas/WebGL）实现高性能可视化   - 确保响应式设计，适配不同终端设备   - 实现算法执行速度的可调节控制（如暂停/继续/单步执行）3. **专业要求**：   - 界面设计符合专业教学软件标准   - 代码结构清晰，具备良好的可扩展性   - 包含完整的文档说明和教学用例   - 确保算法实现的准确性和可视化效果的专业性

主要是考验ai模型的任务分解、代码能力，算法理解与实现能力。通过以下五个维度进行评价。

优秀的AI编程模型应具备优秀的“工程化能力”而不仅仅是“代码片段生成”能力。

Deepseek-V3.1

考虑到这个任务一次成功是有难度的，开发过程出现bug我会让模型进行修改，同时记录各模型每一版的问题和修改次数，不追求一步到位。

第一版，出现无法设置起点与终点的问题，路径规划无法执行。

第二版，设置起点、终点、障碍物后，无法动态可视化看到路径。

第三版，成功，最终成果如下：

整体上，Deepseek-V3.1的完成度是不错的：

整体美观度：暗色系，地图边界不明显；

交互模块：使用拖动批量设置障碍物有点不够流畅；

可视化渲染引擎：满足需求，ai模型做到这种程度算不错；

算法核心模块：算法逻辑正确实现；

数据统计模块：正确实现。

项目消耗Token数：301万，花费金额：2.37元。

Kimi K2

Kimi K2在这个项目上有点小尴尬，反复报错，而且改着改着有点改晕了。

最终能出现主界面，但一点击地图设置起点、障碍物等就一片空白，修改了3次后，我觉得希望渺茫，花费13.5元后，放弃。

GLM-4.5

智谱GLM开发的第一版出现了无法展示动态可视化界面问题，反复修改几次后，还是不能解决。路径规划的算法能成功实现了，但动态可视化展示路径没有完成，最终消耗84万Token。

Qwen3-coder-plus

千问Qwen3-coder-plus第一版点击开始寻路后，没有响应，修复2次后成功实现。

整体美观度：比较简单朴素，但确实是最符合教学平台的风格；

交互模块：设置起点、终点、障碍物顺滑；

可视化渲染引擎：满足需求，可视化清晰；

算法核心模块：算法逻辑正确实现；

数据统计模块：正确实现。

整个项目消耗Token数：约126万。

第二个任务，Deepseek-V3.1、智谱GLM-4.5和千问Qwen3-coder-plus都出现第一个人版本无法展示可视化路径的问题。

经过两轮修改后，Deepseek-V3.1和Qwen3成功实现，智谱GLM-4.5无法显示动态路径，而Kimi K2则比较遗憾，无法实现基本功能。

3.总结

各个模型在每个任务中消耗的Token，我也汇总成如下表格：

K2无法直接看到总token消耗，只能从单个请求进行计算，故token数没有填写；

Qwen3在进行液态玻璃界面开发时，出现多次修改文件失败和调用工具失败情况，导致Token消耗较多。

上述数据结果只是一方面，具有较大的偶然性。因为即使采用同一段的提示词，人类来理解都会有差异，对于AI来说更是如此。从开发过程的体验和成果看：

1.整体代码能力和工程能力

Deepseek-V3.1≈GLM-4.5/4≥Qwen3-coder-plus＞Kimi K2

2.前端能力

GLM-4.5/4≥ Kimi K2 ≈ Qwen3-coder-plus≈Deepseek-V3.1

3.生成速度

Kimi K2（充值50元解除限速版）≥GLM-4.5/4＞Qwen3-coder-plus（百炼）＞Deepseek-V3.1

4.费用（从高至低）

Kimi K2＞Qwen3-coder-plus＞GLM-4.5/4≈Deepseek-V3.1>Qwen3-coder(魔塔)

Qwen3-coder可以使用魔塔社区的API，每天500次免费调用。如果用阿里百炼平台，按Token计费，消耗速度非常快。

我账号里1000万Token，只测了3个任务，直接归零。

总的来说，现阶段的国产模型，编程能力上没有谁能压人一头，依旧是各有优缺点，大家可以参考上述结论，选一到两个适合自己的开发需求的模型作为主力。

写在最后

7月11日，月之暗面发布并同步开源Kimi K2；

7月22日，通义正式开源最新的AI编程大模型Qwen3-Coder；

7月28日，智谱发布最新一代模型GLM-4.5；

8月21日，深度求索发布Deepseek-V3.1。

这期间，还有8月6日发布的Claude-4.1-Opus和8月8日发布的GPT-5。

可以说，这一个半月内，AI coding这个领域还是非常热闹的。几大国产模型的能力和Claude或者GPT相比，还是有的一定差距，多数场景下，Claude-4.0解决不了问题，国内模型大概率也做不到。

回到Deepseek-V3.1上，官方介绍中有这么一句话：

需要注意的是，DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度。

而在微信公众号的评论区，置顶了一条评论：

虽然目前国内模型能力虽没有claude强，但在价格方面还是有优势的，尤其是claude在8月28日后也会开始有使用限制，简单任务用国内模型，复杂任务用claude，也是一种合适的使用方式。

未来一段时间，我会多花点时间来尝试deepseek等国产模型，试试压榨这些国产模型的真正能力，也期待未来国产算力生态的完善和国产模型能力的提升。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K（数据来源：BOSS直聘报告）

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

02.如何学习大模型 AI ？

🔥AI取代的不是人类，而是不会用AI的人！麦肯锡最新报告显示：掌握AI工具的从业者生产效率提升47%，薪资溢价达34%！🚀

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

1️⃣ 提示词工程：把ChatGPT从玩具变成生产工具
2️⃣ RAG系统：让大模型精准输出行业知识
3️⃣ 智能体开发：用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你：
✔️ 大厂内部LLM落地手册（含58个真实案例）
✔️ 提示词设计模板库（覆盖12大应用场景）
✔️ 私藏学习路径图（0基础到项目实战仅需90天）

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

葡萄城开发者空间

葡萄城是专业的软件开发技术和低代码平台提供商，聚焦软件开发技术，以“赋能开发者”为使命，致力于通过表格控件、低代码和BI等各类软件开发工具和服务

更多推荐

赋能制造新质生产力：制造业专用低代码平台选型指南（2025）

《2025制造业低代码平台选型指南》指出，低代码技术正成为制造业培育新质生产力的关键工具。报告显示，60%以上制造企业将在未来三年采用低代码平台，以应对敏捷生产和数字化转型需求。指南推荐了五大平台：活字格（99分）以专业制造模板和深度集成能力领先，钉宜搭（96分）强在钉钉生态整合，明道云（95分）擅长复杂业务建模，简道云（94分）以易用性见长，奥哲（93分）专注企业级流程管理。选型建议关注数据集成