DeepSeek 寻求 3 亿美元融资：打破两年策略，从实验迈向工业状态-洪萨配资

DeepSeek开启外部融资

DeepSeek 开始接触外部资本。The Information 引述四位知情人士报道，DeepSeek 正在寻求至少 3 亿美元的首次外部融资，估值不低于 100 亿美元。若将时间倒回两年前，这几乎是不可能的事。当时，该公司是中国 AI 行业中最反常识的存在。

当其他公司都在融资、扩张、构建生态、抢占入口时，DeepSeek 却刻意收缩，不对外发声，不频繁推出产品，不参与大厂叙事，甚至与资本保持距离。很多投资人尝试接触，得到的反馈均为没有融资计划。在高度资本驱动的行业里，这种姿态违背工业逻辑，但也使 DeepSeek 一度被视为异类样本，一个试图在 AI 时代验证“少资源路径”的团队。此次融资信号的关键不在于金额和估值，而在于它打破了持续两年的策略前提：DeepSeek 不再将自己隔离于体系之外。

DeepSeek的防火墙

梁文锋对外部资本的排斥有深刻根源。2022 年前后，量化行业受政策打压，幻方管理规模从千亿缩减大半。梁文锋手握大量富余的 GPU 集群和现金，曾想通过投资入股或与云厂商合作的方式利用算力。他专门招聘两人负责战投，考察了低空经济、智能硬件、SaaS 等科技项目，最终都未投资。当时 DeepSeek 内部认为，外部能做的事自己也能做。

2023 年 7 月，DeepSeek 正式成立。梁文锋从一开始就为公司划定界限，不接受外部融资，不稀释股权，不被他人的商业化时间表束缚。他希望打造一个纯粹的研究机构，追求 AGI、开展开源项目、让技术说话。他有足够的底气，早在 2019 年，他就投入 2 亿元自研深度学习训练平台萤火一号，2021 年又投入 10 亿元建设萤火二号，大量采购英伟达 A100，使幻方成为国内屈指可数的万卡集群公司。疫情期间芯片供应紧张时，幻方已提前囤货。2025 年，幻方全年收益率 56.6%，营收超 50 亿人民币。梁文锋资金充裕，相比之下，VC 的资金反而可能成为负担，因为其带有对赌、估值压力和变现要求。他直言：VC 都是为 LP 管钱，都要赚钱，所以难以达成共识。

2025 年 1 月，R1 发布，训练成本约 560 万美元，性能逼近 OpenAI 的顶级系统。“用十分之一的钱做出同级模型”，这让行业认识到，顶级模型能力并非只能通过大量资源堆叠获得。此时，DeepSeek 的意义得到放大，它不仅提供了一个模型，更展示了一种可能性，即在资源不占优的情况下，仍可进入核心竞争区。其防火墙不仅稳固，还成为行业故事的一部分。然而，故事需要不断续写。

裂缝出现

裂缝并非突然出现，自 R1 发布后便开始显现，只是初期信号分散。首先是人员的变动，顶级模型团队的核心成员市场价值高，项目空档期时易成为市场目标。最早离开的是罗福莉，V3 架构的关键开发者，2025 年底转投小米接手 MiMo 大模型团队。同期，第一代大语言模型核心作者王炳宣去了腾讯，多模态方向的核心研究员阮翀加入元戎启行担任首席科学家，OCR 系列核心作者魏浩然也在今年春节前后离职。

接着是郭达雅，1994 年生，中山大学博士，在 DeepSeek 仅两年，却参与了 V3、R1、Coder、Math、Prover 等几乎所有标志性模型的研发。他提出的 GRPO 算法是 R1 的核心技术底座，论文总被引超过 37000 次，在同龄的中国 AI 研究者中难逢敌手。前两天，郭达雅加入字节跳动，从事智能体方向。

不到一年时间，五位核心研发骨干相继离开。这不仅是人员流失，在模型研发中，经验高度依赖路径，核心成员的离开会直接影响下一轮迭代的效率和节奏。他们离开的原因与薪资和期权有关。猎头圈消息称，大厂给 DeepSeek 核心技术人员的开价普遍是原薪资的两到三倍。字节 Seed 团队从 2025 年 9 月起推出专项期权津贴，按职级每月发放 9 万到 13.5 万元不等的期权，价格低于内部回购价。

梁文锋的管理哲学在中国科技行业较为独特，不加班、不打卡、不设 KPI，员工工作时间灵活。这种文化在团队规模较小时运行良好，但当外部高薪诱惑出现时，自由就显得不足。更关键的是期权问题，DeepSeek 从未融资，没有市场化的估值锚点，员工手中的股权承诺无法兑换成现金。而大厂的期权有行权价、内部回购机制和 IPO 预期。郭达雅的离开可能还与公司业务方向有关，DeepSeek 没有 Agent 产品，R1 发布时甚至不支持 function call（函数调用），他想从事智能体方向，公司却没有相关业务。

除人员变动外，产品节奏也出现问题。下一代旗舰 V4 原计划春节前后发布，后推迟到 2 月、3 月，目前预计 4 月下旬发布。延期原因至少有三层：一是技术路线发生质变，V4 要打造的是系统级工程，涉及万亿参数 MoE 架构、原生多模态、百万 token 上下文、全新的 Engram 条件记忆机制，训练验证复杂度大幅提升；二是身份包袱，DeepSeek 以低成本实现顶级性能为立身之本，V4 若性能提升有限却增加推理成本，支撑估值和声誉的故事将出现裂痕；三是国产芯片深度适配，多方信源称 V4 将全面运行在华为昇腾 950PR 芯片上，这是一个独立的巨型工程，消耗大量研发资源。

到 2026 年 4 月，DeepSeek 已有 15 个月没有大版本更新。在此期间，OpenAI 迭代四五轮，Anthropic 连续推出 Claude 4.5/4.6/4.7，国内同行如智谱、月之暗面、字节也在应用层快速发展。所有人都在加速，只有 DeepSeek 进展缓慢。此前，很多人认为这是定力的表现，但现在看来，更像是主动选择延长“实验室状态”。然而，当外部环境加速时，节奏就不再完全由自己掌控。

竞争逻辑转变

若单独看 DeepSeek 的处境，易归因于公司内部问题，但关键变量来自外部。过去 15 个月，行业竞争维度发生巨大变化。早期，大模型竞争核心在于架构、训练方法和工程优化；2026 年后，算力池规模、人才密度、应用层反馈速度成为主导因素，三者共同决定迭代速度。

海外头部公司的收入结构体现了这一趋势。Anthropic 年化收入从 90 亿美元增至 300 亿美元仅用四个月，增量主要来自 Claude Code 编程智能体。Cursor 代码编辑器估值 600 亿美元，GitHub Copilot 覆盖 2000 万开发者。资金流向能直接产出代码、工具和应用的产品。国内同行也在迅速跟进，字节、阿里、腾讯布局 Coding 和 Agent 产品线，智谱和月之暗面的 API 在年初的小龙虾热潮中需求大增，源于它们在 Coding 方向的投入。

显然，单点模型能力仍重要，但不再是唯一决定因素，资源、组织、系统能力成为关键变量。中国几家头部公司虽动作路径不同，但都将模型能力嵌入更大系统。DeepSeek 在全球开源社区人气高，GitHub 上有 17 万颗星，2.6 万个企业账户，每月 57 亿次 API 调用，但它缺乏自己的 IDE、Coding 工具、Agent 产品和终端用户付费的垂直应用。

梁文锋坚持模型是一切的根基，其近期署名论文方向为条件记忆机制、超连接优化 Transformer，表明 DeepSeek 仍专注于解决底层问题。这种执着在 R1 时代得到验证，但当竞争扩展到能力、产品和生态的综合比拼时，仅有强大的基础能力是不够的。3 月 29 日晚间，DeepSeek 遭遇上线以来最长的服务中断，超过 7 小时，波及数亿用户，官方未解释原因。中断期间竞品流量上升，部分企业客户考虑多平台冗余策略。一次宕机虽不会击垮公司，但凸显了用户规模扩大后，基础设施投入仅靠效率优化已无法满足需求。幻方的利润虽能支撑，但并不轻松。

3 亿美元的意义

3 亿美元对 100 亿美元的估值来说，稀释比例不到 3%，与 Anthropic 和 OpenAI 等巨头相比，这一数字较为克制。梁文锋融资的目的可能不在资产负债表上。

首先，融资使期权有了锚点。100 亿美元的定价确定后，核心团队的股权将具有实际价值，这对防止人才流失至关重要。其次，这是 V4 的保险金。华为昇腾的全量适配需要资源，同时媒体报道称 DeepSeek 也在用英伟达最新一代 Blackwell 芯片训练下一代模型，该芯片受出口管制影响，获取节奏不确定，两条硬件路线并行使资金消耗大幅增加。最后，这是进入下半场的入场券。AI 竞争已进入模型、产品、生态、资本四轮驱动阶段，仅有优秀的模型而缺乏资本背书和产品生态，只能成为产业链中的高级供应商。从 V4 的研发方向看，梁文锋可能已意识到这一点，多方信源显示，V4 规划包含 AI 搜索、长期记忆和代码能力的大幅提升，这些都是 Agent 时代的底层能力。DeepSeek 在弥补短板，融资是为了及时跟上行业发展。

外界可能将此次转向视为妥协，但换个角度看，这更像是从实验状态向工业状态的进化。AI 行业成本上升，人才通胀超出预期，依靠个人风格和单一利润源支撑超级独角兽越来越困难。梁文锋过去的选择有其逻辑，但行业节奏最终会对所有企业产生约束。3 亿美元的融资，是梁文锋首次公开承认这一现实。

DeepSeek 寻求 3 亿美元融资：打破两年策略，从实验迈向工业状态

DeepSeek开启外部融资

DeepSeek的防火墙

裂缝出现

竞争逻辑转变

3 亿美元的意义

054.多GPU训练：那些年我们踩过的DP与DDP的坑

数据资源：2000-2023年中国逐日气象数据（气温、气压、降水、风速、降雪、辐射、湿度、PM2.5、高程等13个变量）

AirSim深度图实战：三种格式详解与Python生成3D点云完整代码

Redis 实战 -- 巧用过期时间构建数据生命周期管理策略（EXPIRE、SET PX/EX、TTL）

CoPaw在物联网（IoT）数据分析中的应用：时序数据异常模式识别

基于STAR-CCM+与VA One的汽车气动噪声仿真入门教程