AI 编程实战之 DeepSeek-V3.1 编程能力还不太行，但应该是一个新的起点

如果你不是 vibe coding 深度用户，只是偶尔用一下，可以尝试用国产编程模式尝试一下，否则不太建议。不然国内阿里、腾讯、字节 3 巨头也不需要专门出国际版的 IDE 了。。。阿里：Qoder（国际版） + lingma（国内版）腾讯：CodeBuddy 海外版 + CodeBuddy_CN字节：Trae 海外版 + Trae 国内版不过如果国产模型毕竟编译，用来做一些辅助性的工作，还是挺划

杭州_燕十三

1660人浏览 · 2025-08-24 12:35:29

杭州_燕十三 · 2025-08-24 12:35:29 发布

2025-8-21 DeepSeek 官方公众号正式宣布 DeepSeek-V3.1 正式发布。详细信息很多关系国产大模型的朋友应该都已经看了，也可以看：https://mp.weixin.qq.com/s/WUbmBSapVyvxZe6HobD5Qw?click_id=1。

文章介绍了 V3.1 的升级内容，包括和 DeepSeek-R1-0528，DeepSeek-V3-0324 性能对比。

非专业人士，比较关心的，能看懂的几个点：

上下文均已扩展为 128K
增加了对 Anthropic API 格式的支持，让大家可以轻松将 DeepSeek-V3.1 的能力接入 Claude Code 框架。详见官方文档：https://api-docs.deepseek.com/zh-cn/guides/anthropic_api
北京时间 2025 年 9 月 6 日凌晨起 DeepSeek-V3.1 价格有调整。在 9 月 6 日前，所有 API 服务仍按原价格政策计费。还特别强调了，为更好地满足用户的调用需求，我们已进一步扩容 API 服务资源，欢迎使用！

Claude Code 配置

官方文档：https://api-docs.deepseek.com/zh-cn/guides/anthropic_api 详细介绍了 Anthropic API 格式的支持情况

Claude Code 可以说是当红炸子鸡，官方也给了配置说明：

export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN=${DEEPSEEK_API_KEY}
export ANTHROPIC_MODEL=deepseek-chat
export ANTHROPIC_SMALL_FAST_MODEL=deepseek-chat

编程能力测试

全部采用 Claude Code 最新版本测试，采用同样的提示词，均采用的是官方 API 。

先说结论

国产模型编程能力和国外闭源模型比，初步看起来差距还是挺大的，特别是非专业人士，国产模型应该还不能打。
如果非要用国产模型，和工具关系也很大，工具说白了就是一个 agent。
提示词对大模型影响非常大，能明确约束的必须要约束，约束的越详细，生成的质量越高。
DeepSeek-V3.1 最大的突破应该不是在公众号文章里面介绍的那些功能，而是在文章最后结尾处提到的 需要注意的是，DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度，DeepSeek 怕大家没注意最后的细节，特别在公众号留言里面针对 UE8M0 FP8 做了介绍。

所以这才是引爆本周五大 A 行情的关键点。

在这里插入图片描述

UE8M0 FP8 具体是个啥网上大佬介绍的很多，有兴趣的可以去找找，或者直接问 DeepSeek。

期待 DeepSeek-R2 早日到来，特别是在编程能力上的突破。

提示词

开发一个基于HTML5和原生JavaScript的2048游戏，需满足以下要求：
1) 完全使用原生JavaScript实现，不引入任何第三方库；
2) 实现鼠标拖拽操作支持四个方向滑动（左、右、上、下），要求拖拽方向识别准确；
3) 完整游戏逻辑包括：数字方块合并规则（相同数字碰撞时合并为它们的和）、实时得分计算、胜负条件判断（达到2048获胜/无法移动时失败）；
4) 响应式布局适配从手机到桌面的各种屏幕尺寸；
5) 丰富的视觉反馈：平滑的滑动动画、合并时的缩放特效、游戏结束时的模态提示框。
界面设计采用简约现代风格，必须包含：实时分数显示区域、重新开始按钮。所有代码需有良好的注释说明关键逻辑。

DeepSeek-V3.1

API 调用费用 0.2 元，时间花费 4 分钟左右
好像不能深度思考，否则会报错
API 情况

API 请求次数: 15
输入（命中缓存）： 216320 tokens
输入（未命中缓存）：17700 tokens
输出：7046 tokens

Claude code 统计:

Usage by model:
    deepseek-chat:  234.0k input, 7.0k output, 216.3k cache read, 0 cache write

生成的游戏可以正常移动，合并，但是 UI 效果一般，数字方格和底部的框没有对齐，鼠标操作不太灵敏，很多时候只能用键盘。

在这里插入图片描述

GLM-4.5

GLM-4.5 的 API 地址：

$ export ANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic

总共花了 45,017 tokens，用时 3 分钟左右
Claude code 统计:

Total duration (API):  2m 34.4s
Total duration (wall): 7m 45.6s
Usage by model:
    claude-3-5-haiku:  279 input, 276 output, 120 cache read, 0 cache write
       claude-sonnet:  19.3k input, 10.7k output, 200.6k cache read, 0 cache write

生成的游戏可以正常移动，合并，UI 最右边有缺陷，效果总体比 DeepSeek-V3.1 好，鼠标操作灵敏，键盘操作灵敏。

在这里插入图片描述

kimi-k2

Kimi 的 API 地址：

$ export ANTHROPIC_BASE_URL=https://api.moonshot.cn/anthropic

花费 0.58 元，用时 15 分钟（对的，没看错 15 分钟 23:38 -> 23:53）
Claude code 统计:

Total cost:            $2.09
Total duration (API):  14m 56.6s
Total duration (wall): 19m 50.2s
Total code changes:    1117 lines added, 0 lines removed
Usage by model:
    claude-3-5-haiku:  7.6k input, 162 output, 0 cache read, 0 cache write
       claude-sonnet:  593.4k input, 20.5k output, 0 cache read, 0 cache write

游戏鼠标和键盘都不能移动。。。

在这里插入图片描述

再次证明，kimi-k2 国产开源模型中编程能力最弱的，运行时间久，而且巨贵，一次性充值费用还高 50 起充。

之前也测试过，可以看之前的国产大模型PK

qwen3-coder

Qwen 3 coder 的 API 地址：

$ export ANTHROPIC_BASE_URL=https://dashscope.aliyuncs.com/api/v2/apps/claude-code-proxy

API 调用 0.3 元，花费 4 分钟左右
Claude code 统计:

Total cost:            $0.2470
Total duration (API):  2m 51.8s
Total duration (wall): 9m 42.1s
Total code changes:    1177 lines added, 0 lines removed
Usage by model:
    claude-3-5-haiku:  274 input, 21 output, 0 cache read, 0 cache write
       claude-sonnet:  19.7k input, 9.7k output, 140.0k cache read, 0 cache write

游戏显示有问题，也不能正常玩，生成效果很一般。
在这里插入图片描述

codeBuddy-CN

腾讯 CodeBuddy 中文版本率先支持 DeepSeek-V3.1，并且可以免费使用 DeepSeek-V3.1。

使用计划模式，拆分任务如下：

- 创建基础HTML结构，包含游戏容器和基本样式
- 实现游戏网格的JavaScript初始化逻辑
- 编写数字方块生成和随机位置分配算法
- 实现键盘和鼠标拖拽事件监听
- 完成方块移动和合并的核心游戏逻辑
- 添加滑动动画和合并特效
- 实现得分计算和胜负判断
- 完成游戏结束模态框和重新开始功能
- 添加响应式布局适配不同屏幕尺寸
- 优化代码结构并添加详细注释

总共测试两次：

23:01 开始 23:19 结束，创建失败，一塌糊涂
23:36开始 23:53 结束，能正常移动游戏，但是 UI 效果很一般。

在这里插入图片描述

GLM-4.5 优化提示词

因为上面的一轮测试后，发现效果最好的是 GLM-4.5，有点不死心，觉得是不是提示词的问题，专门强调了方框的要求

开发一个基于HTML5和原生JavaScript的2048游戏，需满足以下要求：
1) 完全使用原生JavaScript实现，不引入任何第三方库；
2) 实现鼠标拖拽操作支持四个方向滑动（左、右、上、下），要求拖拽方向识别准确；
3) 完整游戏逻辑包括：数字方块合并规则（相同数字碰撞时合并为它们的和）、实时得分计算、胜负条件判断（达到2048获胜/无法移动时失败）；
4) 响应式布局适配从手机到桌面的各种屏幕尺寸；
5) 丰富的视觉反馈：平滑的滑动动画、合并时的缩放特效、游戏结束时的模态提示框；
6) 要求数字方块和底部方块显示正常，完整，且上下对齐，网格线清晰可见，方块间距合理。

UI 正常了，游戏不正常了，鼠标不能移动，键盘只能用上下键。。。

在这里插入图片描述

继续使用提示词增强：

开发一个基于HTML5和原生JavaScript的2048游戏，需满足以下要求：
1) 技术实现：完全使用原生JavaScript实现，不引入任何第三方库或框架，仅使用HTML5、CSS3和原生JavaScript，确保代码结构清晰、模块化且易于维护。
2) 交互设计：实现鼠标拖拽和触摸滑动操作支持四个方向滑动（左、右、上、下），要求拖拽方向识别准确，支持键盘方向键操作，提供流畅的用户体验。
3) 游戏逻辑：完整实现2048游戏核心机制，包括数字方块合并规则（相同数字碰撞时合并为它们的和）、实时得分计算、最高分记录、胜负条件判断（达到2048获胜/无法移动时失败）、游戏重新开始功能。
4) 响应式布局：适配从手机到桌面的各种屏幕尺寸，使用媒体查询和弹性布局，确保在不同设备上都有良好的显示效果和操作体验。
5) 视觉反馈：丰富的视觉反馈包括平滑的滑动动画、合并时的缩放特效、新方块出现时的淡入效果、游戏结束时的模态提示框、分数更新动画、不同数值方块的差异化颜色设计。
6) UI细节：要求数字方块和底部方块显示正常，完整，且上下对齐，网格线清晰可见，方块间距合理，字体大小根据数值自动调整，确保可读性。
7) 性能优化：确保游戏运行流畅，动画效果不卡顿，避免内存泄漏，优化渲染性能。
8) 额外功能：实现撤销上一步操作功能、游戏音效开关、本地存储最高分记录、游戏统计信息（步数、游戏时长等）。