震惊！30B参数碾压1T模型？MiroThinker 1.5用“科学家模式“颠覆AI开发，成本直降95%！程序员必看新范式-洪萨配资

凭借成功预测 Polymarket 题目，连续登顶 Future X 全球榜首的 MiroMind 团队，于今日（1 月 5 日）正式发布其自研旗舰搜索智能体模型 MiroThinker 1.5。

MiroMind 由全球知名创新企业家、慈善家陈天桥，与清华大学知名 AI 青年学者代季峰教授联合发起。去年陈天桥提出发现式智能才是真正意义上的通用人工智能这一重磅创新理念，引发全球业内人士关注。他同时提出建设发现式智能的 5 种关键能力，其中一项能力是在未知条件下重建对世界的理解，这正是 MiroMind 的使命。

在过去 7 个月里，当全行业都在「卷」参数规模、「卷」百万长文本的红海时，MiroMind 却在思考一个更本质的问题：智能的「奇点」究竟在哪里？他们给出的答案不是「把世界背进参数里」，而是押注「发现式智能」：真正的智能不靠全知，而靠会研究、会查证、会修正 —— 像顶级情报官一样对外极速取证、对内严苛去伪存真；像严谨研究员一样在不确定性里逼近真相，最终把「预测未来」从特权变成能力。

MiroThinker 1.5 性能评测

MiroMind 团队在 AGI 竞技场上，不信奉 “大力出奇迹”，而是追求以高智效比为核心的「巧劲」。

MiroThinker-v1.5-30B 仅用 1/30 的参数规模跑出了比肩众多 1T 模型的性能表现，其 235B 的版本在多个搜索智能体基准测试中跻身全球第一梯队。

实力霸榜：指标是门槛，预测是天花板

BrowseComp 性能对比

Agent 搜索评测基准性能对比

越级挑战：MiroThinker-v1.5-30B vs Kimi-K2-Thinking

面对参数量高达 30 倍的万亿参数巨兽 Kimi-K2-Thinking，MiroThinker-v1.5-30B 用极低的成本展示了旗鼓相当的表现：

推理成本： MiroThinker-v1.5-30B 单条调用成本低至 $0.07，仅为 Kimi-K2-Thinking 的 1/20，且推理更快。
性能表现：在关键评测集 BrowseComp-ZH 中实现性能超越，证明「大」不等于「强」。

核心洞察：从「做题家模式」转向「科学家模式」

MiroMind 团队指出，以扩大模型内部参数量（Internal Parameters）为核心的传统 Scaling Law 已明显触及边际瓶颈；要继续提升模型性能，必须从「内部参数扩张」转向以「外部信息交互」（External Interaction）为核心的 Interactive Scaling，将智能的增长空间从内部参数扩展到外部世界。

为什么该模型能在大幅降低成本的同时，性能依然能打？

因为这不是「大参数碾压」，而是一次「科学家模式」对「做题家模式」的胜利。以 Scaling Law 为代表的路线，更像「做题家」：试图把全人类知识（也包括噪声与错误）尽可能背进模型里；一旦遇到生物学等领域的未知问题，就容易基于概率分布「编」出一个看似合理的答案 —— 幻觉往往由此产生。

在 MiroThinker 1.0 中，MiroMind 团队首次系统性提出 Interactive Scaling：随着工具交互频率与深度提升，研究式推理能力也稳定增强 —— 这构成了与模型大小、上下文长度并列的第三个可扩展维度。v1.5 更进一步，把这套机制内化为贯穿训练与推理全流程的核心能力：将模型训练成「科学家」，核心不是死记硬背，而是勤查证。遇到难题时，它不会给出概率最高的瞎猜，而是执行慢思考的研究闭环：提出假设 → 向外部世界查数据 / 取证 → 发现对不上 → 修正假设 → 再查证，直到证据收敛。

主流大模型往往盲目追求万亿参数，试图把整个互联网「背」在脑子里。而 MiroThinker 系列选择了一条反共识的路线：刻意将模型控制在 30B–200B 的轻量级规模。MiroMind 团队强调，省下的不是算力，而是把算力花在了更刀刃的地方 —— 对外的信息获取与交互。

MiroMind 团队不追求让模型拥有一颗「最重的脑子」，而是培养它拥有一双「最勤的手」。当模型同时具备研究式确认机制与时序因果约束，这种围绕外部信息获取的交互过程才让「发现式智能」真正落地 —— 也正是对 Interactive Scaling 的深耕，使他们用小得多的模型，做到了大模型才能做到的事。

MiroThinker 1.5 核心技术揭秘

传统的模型思维链本质上是在模型内部知识空间的线性外推，推理偏差会随路径增长而不断累积，最终导致逻辑坍塌。

MiroThinker 1.5 的核心发力点，在于通过 Interactive Scaling 打破孤立推理的僵局，将「推理」与「外部环境」深度耦合。通过构建「推理 - 验证 - 修正」循环，引入外部信息作为校验锚点，用确定性的证据流来对冲不确定性的推演，解决逻辑坍塌问题。

Training-time Interactive Scaling 技术

当智能的 Scaling 范式不再局限于模型内部庞大的世界知识储备与缜密的长程逻辑推理，而是依托模型高频与外部世界中探索与交互并获得闭环反馈时，小而高效的探索者模型能展现比肩于甚至超出大而严谨的思考者模型的智力水平。

MiroThinker 1.5 正是基于这一判断，将 Interactive Scaling 从推理阶段的外挂能力，前移并内化为训练阶段的核心机制。模型并非被要求「尽量在脑中想清楚一切」，而是被系统性地训练成一个善于向外求证、敢于否定自己、能够快速修正路径的 Agent。

在训练过程中，MiroMind 团队刻意削弱对「单次完美推理」的奖励，转而强化以下行为模式：

Evidence-Seeking（主动求证）：模型被鼓励将每一个关键判断拆解为可验证的子假设，并主动发起对外查询、检索与比对。结论本身不再是训练目标，找到可靠证据的过程才是。缺乏信源支撑的高置信输出，会在训练中被系统性地惩罚。
Iterative Verification（多轮校验与自我修正）：推理不被视为一次性路径，而是一个可反复回溯、修正的过程。模型在交互中被要求不断对已有判断进行反证测试，一旦发现证据冲突，必须显式调整假设，而非「带着错误继续推下去」。
Anti-Hallucination（对捷径的系统性过滤）：对那些「看起来合理、但缺乏真实依据」的推理捷径保持零容忍。训练中不仅评估答案是否正确，更关注答案是如何得到的：任何依赖统计相关性、模式记忆或隐含先验而绕过证据验证的路径，都会被标记为低质量推理。

通过这种训练方式，MiroThinker 1.5 逐步形成了一种「本能反应」：在不确定性面前，先交互、再判断；在高风险结论前，先查证、再收敛。这使得模型不再需要将庞大的世界知识全部内化为参数，而是学会在需要时，快速、精准地向外部世界「借力」。

最终，团队用更小的参数规模，换来了更高的智能密度：不是让模型记住更多，而是让它学会如何找到、验证并使用信息。这正是 MiroThinker 1.5 能在显著降低推理成本的同时，依然保持一线性能的根本原因。

时序敏感训练沙盒

时序敏感训练沙盒，是破解「因果律」的钥匙：普通大模型训练常处在「上帝视角」—— 它在数据里早已「见过结果」，学到的往往是复述与「剧透」，而不是预测。MiroThinker 的训练则约束模型「只能看过去，不能看未来」，在严格的时间可见性约束下做判断、再用同样受时序约束的证据去验证与更新。

可控数据合成引擎：构建覆盖多任务类型的、难度与时间戳可控的数据合成体系。每一道题目的「正确答案」并非静态标签，而是随时间戳动态演化；模型必须在严格的信息可见性约束下，基于当时可获取的信息做出判断，而校验过程同样显式引入时间戳约束，以确保推演与评分均符合真实世界的时序逻辑。
时序敏感训练机制：采用严格的时间戳与信息可见性约束，彻底杜绝 Future Leakage；模型在训练过程中的每一步只能与发表于当前时间戳之前的信息进行交互。

在这种训练范式下，模型被迫学会在信息不完备、噪声存在、信号延迟的真实条件下进行推演与修正，而不是依赖静态数据集中的「标准答案」。时间由此从一个背景变量，转变为塑造模型行为与推理方式的核心约束，使模型更接近真实世界中的认知与决策过程。

样例展示

Case 1: A 股涨停板预测

据介绍，这不是「玄学」，更不是事后诸葛亮 —— 而是在信息极度噪声化、情绪快速切换的盘面里，用开放世界证据 + 因果推断去赌「次日正确答案」。（注：以下仅为技术展示，不构成投资建议）

12 月 10 日（周三）：

对话链接：https://dr.miromind.ai/share/07430808-d84d-4e40-9615-bf07d6e71365

跃岭股份｜ 16 只连板股，当天晋级仅 4 只，晋级率 25%，市场情绪显著退潮。MiroMind 在 8 支二板股里，精准押中唯一晋级成功的那一支。
12 月 11 日（周四）：

对话链接：https://dr.miromind.ai/share/eccc29b9-889b-43f9-b6bf-f4b2b7c8dc1e

再升科技｜ 9 只连板股，当天晋级仅 2 只，晋级率 22%，市场环境持续降温。MiroMind 命中 9 支连板股中高位晋级者 —— 退潮里选中「活口」。
12 月 12 日（周五）：

对话链接：https://dr.miromind.ai/share/e9db058d-3e8c-4922-b483-cf5efae2f414

再升科技｜13 只连板股，当天晋级 7 只，晋级率 54%，情绪强力回暖。MiroMind 不仅命中市场最高连板，还准确预判其继续晋级（后续累计涨幅高达 58%）。
12 月 15 日（周一）：

对话链接：https://dr.miromind.ai/share/3dc7dae0-78cb-4a97-8f61-359ab2d3e1a0

华菱线缆｜13 只连板股，当天晋级 5 只，晋级率 38%，市场再度明显降温。MiroMind 继续命中：在情绪回落时仍能穿透噪声，给出可复盘的确定性答案。

Case 2: 下周有哪些大事件会对美股七巨头产生影响？预期的市场反应和潜在波动方向是什么？

对话链接：https://dr.miromind.ai/share/f4afae1a-21e1-4f6d-8eef-16909c2d7b79

Case 3: GTA 6 明年能按时发布吗？

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

Dify插件开发没人告诉你的4个秘密技巧，第3个至关重要