DeepSeek开启外部融资
DeepSeek 开始接触外部资本。The Information 引述四位知情人士报道,DeepSeek 正在寻求至少 3 亿美元的首次外部融资,估值不低于 100 亿美元。若将时间倒回两年前,这几乎是不可能的事。当时,该公司是中国 AI 行业中最反常识的存在。
当其他公司都在融资、扩张、构建生态、抢占入口时,DeepSeek 却刻意收缩,不对外发声,不频繁推出产品,不参与大厂叙事,甚至与资本保持距离。很多投资人尝试接触,得到的反馈均为没有融资计划。在高度资本驱动的行业里,这种姿态违背工业逻辑,但也使 DeepSeek 一度被视为异类样本,一个试图在 AI 时代验证“少资源路径”的团队。此次融资信号的关键不在于金额和估值,而在于它打破了持续两年的策略前提:DeepSeek 不再将自己隔离于体系之外。
DeepSeek的防火墙
梁文锋对外部资本的排斥有深刻根源。2022 年前后,量化行业受政策打压,幻方管理规模从千亿缩减大半。梁文锋手握大量富余的 GPU 集群和现金,曾想通过投资入股或与云厂商合作的方式利用算力。他专门招聘两人负责战投,考察了低空经济、智能硬件、SaaS 等科技项目,最终都未投资。当时 DeepSeek 内部认为,外部能做的事自己也能做。
2023 年 7 月,DeepSeek 正式成立。梁文锋从一开始就为公司划定界限,不接受外部融资,不稀释股权,不被他人的商业化时间表束缚。他希望打造一个纯粹的研究机构,追求 AGI、开展开源项目、让技术说话。他有足够的底气,早在 2019 年,他就投入 2 亿元自研深度学习训练平台萤火一号,2021 年又投入 10 亿元建设萤火二号,大量采购英伟达 A100,使幻方成为国内屈指可数的万卡集群公司。疫情期间芯片供应紧张时,幻方已提前囤货。2025 年,幻方全年收益率 56.6%,营收超 50 亿人民币。梁文锋资金充裕,相比之下,VC 的资金反而可能成为负担,因为其带有对赌、估值压力和变现要求。他直言:VC 都是为 LP 管钱,都要赚钱,所以难以达成共识。
2025 年 1 月,R1 发布,训练成本约 560 万美元,性能逼近 OpenAI 的顶级系统。“用十分之一的钱做出同级模型”,这让行业认识到,顶级模型能力并非只能通过大量资源堆叠获得。此时,DeepSeek 的意义得到放大,它不仅提供了一个模型,更展示了一种可能性,即在资源不占优的情况下,仍可进入核心竞争区。其防火墙不仅稳固,还成为行业故事的一部分。然而,故事需要不断续写。
裂缝出现
裂缝并非突然出现,自 R1 发布后便开始显现,只是初期信号分散。首先是人员的变动,顶级模型团队的核心成员市场价值高,项目空档期时易成为市场目标。最早离开的是罗福莉,V3 架构的关键开发者,2025 年底转投小米接手 MiMo 大模型团队。同期,第一代大语言模型核心作者王炳宣去了腾讯,多模态方向的核心研究员阮翀加入元戎启行担任首席科学家,OCR 系列核心作者魏浩然也在今年春节前后离职。
接着是郭达雅,1994 年生,中山大学博士,在 DeepSeek 仅两年,却参与了 V3、R1、Coder、Math、Prover 等几乎所有标志性模型的研发。他提出的 GRPO 算法是 R1 的核心技术底座,论文总被引超过 37000 次,在同龄的中国 AI 研究者中难逢敌手。前两天,郭达雅加入字节跳动,从事智能体方向。
不到一年时间,五位核心研发骨干相继离开。这不仅是人员流失,在模型研发中,经验高度依赖路径,核心成员的离开会直接影响下一轮迭代的效率和节奏。他们离开的原因与薪资和期权有关。猎头圈消息称,大厂给 DeepSeek 核心技术人员的开价普遍是原薪资的两到三倍。字节 Seed 团队从 2025 年 9 月起推出专项期权津贴,按职级每月发放 9 万到 13.5 万元不等的期权,价格低于内部回购价。
梁文锋的管理哲学在中国科技行业较为独特,不加班、不打卡、不设 KPI,员工工作时间灵活。这种文化在团队规模较小时运行良好,但当外部高薪诱惑出现时,自由就显得不足。更关键的是期权问题,DeepSeek 从未融资,没有市场化的估值锚点,员工手中的股权承诺无法兑换成现金。而大厂的期权有行权价、内部回购机制和 IPO 预期。郭达雅的离开可能还与公司业务方向有关,DeepSeek 没有 Agent 产品,R1 发布时甚至不支持 function call(函数调用),他想从事智能体方向,公司却没有相关业务。
除人员变动外,产品节奏也出现问题。下一代旗舰 V4 原计划春节前后发布,后推迟到 2 月、3 月,目前预计 4 月下旬发布。延期原因至少有三层:一是技术路线发生质变,V4 要打造的是系统级工程,涉及万亿参数 MoE 架构、原生多模态、百万 token 上下文、全新的 Engram 条件记忆机制,训练验证复杂度大幅提升;二是身份包袱,DeepSeek 以低成本实现顶级性能为立身之本,V4 若性能提升有限却增加推理成本,支撑估值和声誉的故事将出现裂痕;三是国产芯片深度适配,多方信源称 V4 将全面运行在华为昇腾 950PR 芯片上,这是一个独立的巨型工程,消耗大量研发资源。
到 2026 年 4 月,DeepSeek 已有 15 个月没有大版本更新。在此期间,OpenAI 迭代四五轮,Anthropic 连续推出 Claude 4.5/4.6/4.7,国内同行如智谱、月之暗面、字节也在应用层快速发展。所有人都在加速,只有 DeepSeek 进展缓慢。此前,很多人认为这是定力的表现,但现在看来,更像是主动选择延长“实验室状态”。然而,当外部环境加速时,节奏就不再完全由自己掌控。
竞争逻辑转变
若单独看 DeepSeek 的处境,易归因于公司内部问题,但关键变量来自外部。过去 15 个月,行业竞争维度发生巨大变化。早期,大模型竞争核心在于架构、训练方法和工程优化;2026 年后,算力池规模、人才密度、应用层反馈速度成为主导因素,三者共同决定迭代速度。
海外头部公司的收入结构体现了这一趋势。Anthropic 年化收入从 90 亿美元增至 300 亿美元仅用四个月,增量主要来自 Claude Code 编程智能体。Cursor 代码编辑器估值 600 亿美元,GitHub Copilot 覆盖 2000 万开发者。资金流向能直接产出代码、工具和应用的产品。国内同行也在迅速跟进,字节、阿里、腾讯布局 Coding 和 Agent 产品线,智谱和月之暗面的 API 在年初的小龙虾热潮中需求大增,源于它们在 Coding 方向的投入。
显然,单点模型能力仍重要,但不再是唯一决定因素,资源、组织、系统能力成为关键变量。中国几家头部公司虽动作路径不同,但都将模型能力嵌入更大系统。DeepSeek 在全球开源社区人气高,GitHub 上有 17 万颗星,2.6 万个企业账户,每月 57 亿次 API 调用,但它缺乏自己的 IDE、Coding 工具、Agent 产品和终端用户付费的垂直应用。
梁文锋坚持模型是一切的根基,其近期署名论文方向为条件记忆机制、超连接优化 Transformer,表明 DeepSeek 仍专注于解决底层问题。这种执着在 R1 时代得到验证,但当竞争扩展到能力、产品和生态的综合比拼时,仅有强大的基础能力是不够的。3 月 29 日晚间,DeepSeek 遭遇上线以来最长的服务中断,超过 7 小时,波及数亿用户,官方未解释原因。中断期间竞品流量上升,部分企业客户考虑多平台冗余策略。一次宕机虽不会击垮公司,但凸显了用户规模扩大后,基础设施投入仅靠效率优化已无法满足需求。幻方的利润虽能支撑,但并不轻松。
3 亿美元的意义
3 亿美元对 100 亿美元的估值来说,稀释比例不到 3%,与 Anthropic 和 OpenAI 等巨头相比,这一数字较为克制。梁文锋融资的目的可能不在资产负债表上。
首先,融资使期权有了锚点。100 亿美元的定价确定后,核心团队的股权将具有实际价值,这对防止人才流失至关重要。其次,这是 V4 的保险金。华为昇腾的全量适配需要资源,同时媒体报道称 DeepSeek 也在用英伟达最新一代 Blackwell 芯片训练下一代模型,该芯片受出口管制影响,获取节奏不确定,两条硬件路线并行使资金消耗大幅增加。最后,这是进入下半场的入场券。AI 竞争已进入模型、产品、生态、资本四轮驱动阶段,仅有优秀的模型而缺乏资本背书和产品生态,只能成为产业链中的高级供应商。从 V4 的研发方向看,梁文锋可能已意识到这一点,多方信源显示,V4 规划包含 AI 搜索、长期记忆和代码能力的大幅提升,这些都是 Agent 时代的底层能力。DeepSeek 在弥补短板,融资是为了及时跟上行业发展。
外界可能将此次转向视为妥协,但换个角度看,这更像是从实验状态向工业状态的进化。AI 行业成本上升,人才通胀超出预期,依靠个人风格和单一利润源支撑超级独角兽越来越困难。梁文锋过去的选择有其逻辑,但行业节奏最终会对所有企业产生约束。3 亿美元的融资,是梁文锋首次公开承认这一现实。