AI 编程实战之 DeepSeek-V3.1 编程能力还不太行,但应该是一个新的起点
如果你不是 vibe coding 深度用户,只是偶尔用一下,可以尝试用国产编程模式尝试一下,否则不太建议。不然国内阿里、腾讯、字节 3 巨头也不需要专门出国际版的 IDE 了。。。阿里:Qoder(国际版) + lingma(国内版)腾讯:CodeBuddy 海外版 + CodeBuddy_CN字节:Trae 海外版 + Trae 国内版不过如果国产模型毕竟编译,用来做一些辅助性的工作,还是挺划
2025-8-21 DeepSeek 官方公众号正式宣布 DeepSeek-V3.1 正式发布。详细信息很多关系国产大模型的朋友应该都已经看了,也可以看:https://mp.weixin.qq.com/s/WUbmBSapVyvxZe6HobD5Qw?click_id=1。
文章介绍了 V3.1 的升级内容,包括和 DeepSeek-R1-0528,DeepSeek-V3-0324 性能对比。
非专业人士,比较关心的,能看懂的几个点:
- 上下文均已扩展为 128K
- 增加了对 Anthropic API 格式的支持,让大家可以轻松将 DeepSeek-V3.1 的能力接入 Claude Code 框架。详见官方文档:https://api-docs.deepseek.com/zh-cn/guides/anthropic_api
- 北京时间 2025 年 9 月 6 日凌晨起 DeepSeek-V3.1 价格有调整。在 9 月 6 日前,所有 API 服务仍按原价格政策计费。还特别强调了,为更好地满足用户的调用需求,我们已进一步扩容 API 服务资源,欢迎使用!
Claude Code 配置
官方文档:https://api-docs.deepseek.com/zh-cn/guides/anthropic_api 详细介绍了 Anthropic API 格式的支持情况
Claude Code 可以说是当红炸子鸡,官方也给了配置说明:
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN=${DEEPSEEK_API_KEY}
export ANTHROPIC_MODEL=deepseek-chat
export ANTHROPIC_SMALL_FAST_MODEL=deepseek-chat
编程能力测试
全部采用 Claude Code 最新版本测试,采用同样的提示词,均采用的是官方 API 。
先说结论
-
国产模型编程能力和国外闭源模型比,初步看起来差距还是挺大的,特别是非专业人士,国产模型应该还不能打。
-
如果非要用国产模型,和工具关系也很大,工具说白了就是一个 agent。
-
提示词对大模型影响非常大,能明确约束的必须要约束,约束的越详细,生成的质量越高。
-
DeepSeek-V3.1 最大的突破应该不是在公众号文章里面介绍的那些功能,而是在文章最后结尾处提到的
需要注意的是,DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度,DeepSeek 怕大家没注意最后的细节,特别在公众号留言里面针对UE8M0 FP8做了介绍。
所以这才是引爆本周五大 A 行情的关键点。

UE8M0 FP8 具体是个啥网上大佬介绍的很多,有兴趣的可以去找找,或者直接问 DeepSeek。
期待 DeepSeek-R2 早日到来,特别是在编程能力上的突破。
提示词
开发一个基于HTML5和原生JavaScript的2048游戏,需满足以下要求:
1) 完全使用原生JavaScript实现,不引入任何第三方库;
2) 实现鼠标拖拽操作支持四个方向滑动(左、右、上、下),要求拖拽方向识别准确;
3) 完整游戏逻辑包括:数字方块合并规则(相同数字碰撞时合并为它们的和)、实时得分计算、胜负条件判断(达到2048获胜/无法移动时失败);
4) 响应式布局适配从手机到桌面的各种屏幕尺寸;
5) 丰富的视觉反馈:平滑的滑动动画、合并时的缩放特效、游戏结束时的模态提示框。
界面设计采用简约现代风格,必须包含:实时分数显示区域、重新开始按钮。所有代码需有良好的注释说明关键逻辑。
DeepSeek-V3.1
-
API 调用费用 0.2 元,时间花费 4 分钟 左右
-
好像不能深度思考,否则会报错
-
API 情况
- API 请求次数: 15
- 输入(命中缓存): 216320 tokens
- 输入(未命中缓存):17700 tokens
- 输出:7046 tokens
- Claude code 统计:
Usage by model:
deepseek-chat: 234.0k input, 7.0k output, 216.3k cache read, 0 cache write
生成的游戏可以正常移动,合并,但是 UI 效果一般,数字方格和底部的框没有对齐,鼠标操作不太灵敏,很多时候只能用键盘。

GLM-4.5
- GLM-4.5 的 API 地址:
$ export ANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic
- 总共花了 45,017 tokens,用时 3 分钟左右
- Claude code 统计:
Total duration (API): 2m 34.4s
Total duration (wall): 7m 45.6s
Usage by model:
claude-3-5-haiku: 279 input, 276 output, 120 cache read, 0 cache write
claude-sonnet: 19.3k input, 10.7k output, 200.6k cache read, 0 cache write
生成的游戏可以正常移动,合并,UI 最右边有缺陷,效果总体比 DeepSeek-V3.1 好,鼠标操作灵敏,键盘操作灵敏。

kimi-k2
- Kimi 的 API 地址:
$ export ANTHROPIC_BASE_URL=https://api.moonshot.cn/anthropic
-
花费 0.58 元,用时 15 分钟(对的,没看错 15 分钟 23:38 -> 23:53)
-
Claude code 统计:
Total cost: $2.09
Total duration (API): 14m 56.6s
Total duration (wall): 19m 50.2s
Total code changes: 1117 lines added, 0 lines removed
Usage by model:
claude-3-5-haiku: 7.6k input, 162 output, 0 cache read, 0 cache write
claude-sonnet: 593.4k input, 20.5k output, 0 cache read, 0 cache write
游戏鼠标和键盘都不能移动。。。

再次证明,kimi-k2 国产开源模型中编程能力最弱的,运行时间久,而且巨贵,一次性充值费用还高 50 起充。
之前也测试过,可以看之前的国产大模型PK
qwen3-coder
- Qwen 3 coder 的 API 地址:
$ export ANTHROPIC_BASE_URL=https://dashscope.aliyuncs.com/api/v2/apps/claude-code-proxy
-
API 调用 0.3 元,花费 4 分钟左右
-
Claude code 统计:
Total cost: $0.2470
Total duration (API): 2m 51.8s
Total duration (wall): 9m 42.1s
Total code changes: 1177 lines added, 0 lines removed
Usage by model:
claude-3-5-haiku: 274 input, 21 output, 0 cache read, 0 cache write
claude-sonnet: 19.7k input, 9.7k output, 140.0k cache read, 0 cache write
游戏显示有问题,也不能正常玩,生成效果很一般。
codeBuddy-CN
腾讯 CodeBuddy 中文版本率先支持 DeepSeek-V3.1,并且可以免费使用 DeepSeek-V3.1。
使用计划模式,拆分任务如下:
- 创建基础HTML结构,包含游戏容器和基本样式
- 实现游戏网格的JavaScript初始化逻辑
- 编写数字方块生成和随机位置分配算法
- 实现键盘和鼠标拖拽事件监听
- 完成方块移动和合并的核心游戏逻辑
- 添加滑动动画和合并特效
- 实现得分计算和胜负判断
- 完成游戏结束模态框和重新开始功能
- 添加响应式布局适配不同屏幕尺寸
- 优化代码结构并添加详细注释
总共测试两次:
-
23:01 开始 23:19 结束,创建失败,一塌糊涂
-
23:36开始 23:53 结束,能正常移动 游戏,但是 UI 效果很一般。

GLM-4.5 优化提示词
因为上面的一轮测试后,发现效果最好的是 GLM-4.5,有点不死心,觉得是不是提示词的问题,专门强调了方框的要求
开发一个基于HTML5和原生JavaScript的2048游戏,需满足以下要求:
1) 完全使用原生JavaScript实现,不引入任何第三方库;
2) 实现鼠标拖拽操作支持四个方向滑动(左、右、上、下),要求拖拽方向识别准确;
3) 完整游戏逻辑包括:数字方块合并规则(相同数字碰撞时合并为它们的和)、实时得分计算、胜负条件判断(达到2048获胜/无法移动时失败);
4) 响应式布局适配从手机到桌面的各种屏幕尺寸;
5) 丰富的视觉反馈:平滑的滑动动画、合并时的缩放特效、游戏结束时的模态提示框;
6) 要求数字方块和底部方块显示正常,完整,且上下对齐,网格线清晰可见,方块间距合理。
UI 正常了,游戏不正常了,鼠标不能移动,键盘只能用上下键。。。

继续使用提示词增强:
开发一个基于HTML5和原生JavaScript的2048游戏,需满足以下要求:
1) 技术实现:完全使用原生JavaScript实现,不引入任何第三方库或框架,仅使用HTML5、CSS3和原生JavaScript,确保代码结构清晰、模块化且易于维护。
2) 交互设计:实现鼠标拖拽和触摸滑动操作支持四个方向滑动(左、右、上、下),要求拖拽方向识别准确,支持键盘方向键操作,提供流畅的用户体验。
3) 游戏逻辑:完整实现2048游戏核心机制,包括数字方块合并规则(相同数字碰撞时合并为它们的和)、实时得分计算、最高分记录、胜负条件判断(达到2048获胜/无法移动时失败)、游戏重新开始功能。
4) 响应式布局:适配从手机到桌面的各种屏幕尺寸,使用媒体查询和弹性布局,确保在不同设备上都有良好的显示效果和操作体验。
5) 视觉反馈:丰富的视觉反馈包括平滑的滑动动画、合并时的缩放特效、新方块出现时的淡入效果、游戏结束时的模态提示框、分数更新动画、不同数值方块的差异化颜色设计。
6) UI细节:要求数字方块和底部方块显示正常,完整,且上下对齐,网格线清晰可见,方块间距合理,字体大小根据数值自动调整,确保可读性。
7) 性能优化:确保游戏运行流畅,动画效果不卡顿,避免内存泄漏,优化渲染性能。
8) 额外功能:实现撤销上一步操作功能、游戏音效开关、本地存储最高分记录、游戏统计信息(步数、游戏时长等)。
再次测试:

UI 更丰富了,鼠标和键盘都能用,但是变成逻辑有一些问题,数字在合并过程中飞来飞去。。。
总结
如果你不是 vibe coding 深度用户,只是偶尔用一下,可以尝试用国产编程模式尝试一下,否则不太建议。
不然国内阿里、腾讯、字节 3 巨头也不需要专门出国际版的 IDE 了。。。
- 阿里:Qoder(国际版) + lingma(国内版)
- 腾讯:CodeBuddy 海外版 + CodeBuddy_CN
- 字节:Trae 海外版 + Trae 国内版
不过如果国产模型毕竟编译,用来做一些辅助性的工作,还是挺划算的,可以来挖掘挖掘这方面的需求。
毕竟 Claude Code MAX20x 套餐马上也要开始限制流量了,流程越来越值钱了。
本人非 AI 专业人士,使用 AI 编程工具,主要是为了提高工作效率,减少重复劳动,让 AI 做一些重复性的工作,解放自己的双手。
对 AI 编程有兴趣的小伙伴,可以关注个人公众号:燕十三的物联网之旅
可以扫码加微信群一起分享交流:
由于微信群二维码有时间限制,超过时间后可以加我微信 flyingcys,拉你进群。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐



所有评论(0)