DeepSeek V4,终于来了。
从 R1 算起,大家等了整整 15 个月。期间"下周发布"被调侃了无数轮,搞得像追更一部永远不更新的番剧。现在靴子落地,一次性放出两个版本——V4 Pro 和 V4 Flash,全部标配 1M 上下文,全部开源。
简单列一下参数:V4 Pro 总参数 1.6T(1.6 万亿),49B 激活;V4 Flash 总参数 284B(2840 亿),13B 激活。在网页端和 APP 上,Pro 对应「专家模式」,Flash 对应「快速模式」。
DeepSeek 自己对 V4 的定位相当坦诚。官方报告里白纸黑字写着,Agent 能力勉强对齐 Claude Sonnet 4.5,离 Opus 4.6、4.7 还有差距;世界知识赶不上 Gemini-Pro-3.1;推理性能倒是和 GPT-5.4 打得有来有回。整体判断是——"发展轨迹约滞后前沿闭源模型 3 到 6 个月"。这话由他们自己说出来,我还挺意外的,毕竟现在的 AI 圈子里,这么说实话的厂商已经不多了。
API 价格方面,V4 Pro 比 V3.2 涨了约 6 倍,V4 Flash 反而降了约 50%。另外提一句,Coding Plan 依然没有,不知道后续会不会安排上。
以上是官方给的账本。下面进入实测环节。
01
一、编程:3D 任务
先跑一个 3D 前端的老活,看模型在空间想象和逻辑推理上的功力。
KEY SIGNAL
提示词:制作一个 3D 的雪山场景 HTML,雪山中间有一座日式寺庙,整体风格参考《塞尔达:旷野之息》。
一圈跑下来,"开源五杰"各显神通。GLM-5.1、Qwen3.6-Plus 和 Gemini-3.1-Pro 属于同一梯队,剩下几家稍逊一筹。细节上,GLM-5.1 和 Qwen3.6-Plus 是最能打的——雪山粒子特效、日式建筑的还原度、对塞尔达风格的理解,明显比其他模型高出一截。DeepSeek V4 Pro 在这个 case 里只能说中规中矩,不出彩但也不翻车。
我又补了一个 3D 魔方的经典 case,V4 能一次还原。不过说实话,这个难度在当下已经不算挑战,最新一批模型基本都能 one shot 跑通。
02
二、编程:SKILLS 任务
藏师傅今天开源了一个 PPT skill,名字叫「guizang-ppt-skill」,我只能说——真的离谱。
生成的 PPT 是一个 HTML 文件,几十 KB,发谁谁就能在浏览器打开,字体不丢、动画不崩。藏师傅自己是这么形容的:"这是我十年审美的压缩包。"一点不夸张。
我第一时间把这个 skill 怼进了 Claude Code,然后切到 DeepSeek V4 Pro 跑了一个 case:让它把我前一天的文章设计成 10 页 PPT。出来的效果——排版、风格、字体搭配,每一页我都挑不出大毛病。略微改改文字(用 Trae 或文本编辑器就能搞定),这套 PPT 直接能上台。
03
三、编程:网站开发
这个 case 是让 V4 Pro 给我做一个摄影师作品集网站。我给它扔了一个文件夹的模特照片,身份设定是:我是拍模特广告的摄影师,工作室叫「小逸摄影」,目标是生成一个审美在线、有大片质感的作品网站。
之前用 Qwen3.6-Plus 跑过同样的需求,效果非常惊艳。这次换 V4 Pro 上——深色背景、Hero 全屏、网格画廊,大方向上的审美判断基本和 Qwen3.6-Plus 在一个层级。但扣细节的话,Qwen3.6-Plus 在 logo 设计、文字配色和交互动画上还是要更细腻一些。
04
四、AGENT 长程任务
进入重头戏。还是我们的保留项目:让 Claude Code 执行一个连环复杂任务——联网搜索 + 生成 Word 报告 + 调用 skill + 搭建网站。
KEY SIGNAL
提示词:联网搜索、调研张雪机车的发展轨迹,尽量从权威信源获取信息。首先,给我创建一份 5000 字的 Word 调研报告。然后,调用 Knowledge Site Creator Skills 给这份报告创建一个知识学习网站,页面高级审美。
这次 V4 Pro 跑了整整 33 分钟,很慢,但确实跑完了。交付了两样东西:一份 Word 报告,一个知识学习网站(带后端的那种)。
报告内容相当扎实。最近我一直在把 DeepSeek 当检索工具高频使用,回答质量确实稳,去年的幻觉问题已经大幅收敛。网站这边更让我惊喜——直接带了后端和数据库,我往里面加数据就能真正用起来。
以上四个 case 跑完,总共烧了 450 万 tokens,花了 10 块钱。蹲一个 Coding Plan,真的,蹲了好久了。
05
五、世界知识任务
世界知识要系统测确实麻烦,我先挑了一些冷门领域的问题问它(全程关闭联网),基本都能答得靠谱。
一些没那么新但也不算旧的知识,它也训进去了。但真正刚发生的事情——不行,确实不知道。我问它训练数据截止时间,它说是 2025 年 5 月。
06
六、写作任务
写作测试用的是我日常最常干的事:让 AI 续写。给一段风格鲜明的原文,让它接下去 300 字。
这段原文是我自己写的:"现在,谁发我一张图,我的第一反应都是:'这是不是 GPT 生成的?'人类社会,大家能够坐下来一起讨论事情,最基本的前提是,我们活在同一个现实里,对最基础的事实认知是一致的。而今天,目光所及的一切都在崩塌。"
DeepSeek V4 Pro 的表现——还行,但老毛病没改:喜欢拽技术词,"锚点""脚本""图灵测试"这些词老往外蹦,读着就不像人话。
GPT-5 就明显自然多了,输出的东西有人味儿。GPT 也一直是我写作的主力模型,不过用的时候要微调,比如让它别老"不是……而是……",破折号和冒号也别没完没了地往上堆。
Gemini-3.1-Pro 就……继续拉胯。堆了一堆成语,不但没用还对不上原作的调性,读起来割裂感拉满。上周我跟大家聊写作经验,评论区一片哀嚎说 Gemini 3.1 / 3.0 远不如 2.5,所言非虚。
Claude-Opus-4.6——写作能力,依然是天花板。
07
写在最后
一轮测下来,我对 DeepSeek V4 的总体评价是:"一般货色"。
这其实和他们自己的判断对得上——距离全球最顶尖的模型(不分开源闭源),大概还有 3 到 6 个月的身位差。官方文章里写了一句挺克制的话:「不诱于誉,不恐于诽,率道而行,端然正己。」翻译成人话就是:不因为夸奖飘起来,也不因为骂声慌神,走自己的路,把身板立正。
但有意思的事情来了——今天的 AI 行业,已经没什么人愿意接受"一般货色"这四个字了。你发一个新模型,如果做不到吊打、碾压、重构一切,舆论很容易直接定性为"没意思"。可是冷静下来想想,这种期待本身就不太正常。技术的发展从来不是一根直线往上冲,也不是永远指数增长。"前进—倒退—前进—再前进—又倒退",这才是常态。很多时候,真正影响行业格局的,反而是那些看着差一点点的版本:稳了一点、可控了一点、生态完善了一点。
DeepSeek V4 给我的感觉,就是这样一个"差一点点"的版本。
它不惊艳,但它在补课——
重写注意力机制,对 Token 维度做压缩,叠上自研的 DSA 稀疏注意力,把上下文从 128k 一把推到 1M,而且是全系标配。重改模型架构,同时适配英伟达 GPU 和华为昇腾 NPU。重换后训练路径,从 V3.2 的 SFT+混合 RL,切换到 On-Policy Distillation(OPD)——先练专家,再做融合。同时死磕 Agent 能力,对 Claude Code、OpenClaw、CodeBuddy 这些一线 Agent 产品做针对性优化。
这些事情,没有一件能上热搜。
但总得有人去做。而这一次,去做的人是 DeepSeek。
本文部分图片来源于网络,版权归原作者所有,如有疑问请联系删除。