news 2026/4/15 14:27:54

qwen3实现动态决定思考与否是怎么实现的

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
qwen3实现动态决定思考与否是怎么实现的

qwen3实现动态决定思考与否是怎么实现的

已思考 34s

Qwen3 里“动态决定要不要思考”,核心不是在模型内部做了一个神秘的routing/gatingMoE 那样自动走不同子网络),而是把“思考”变成了可控的输出协议 + 推理时开关
同一个模型在需要时会输出被<think>...</think>包起来的推理段;不需要时就直接给最终答复。

下面按“怎么实现”拆开讲:

1) 统一输出协议:用<think>...</think>显式标注推理段

Qwen3 的“思考模式”本质是:模型会把中间推理写在<think> ... </think>之间,最终答案写在标签之外。很多推理服务框架(如 vLLM)也据此提供reasoning parser来抽取/隐藏这段内容。

这一步的关键:训练时让模型学会遵守这个标注协议,从而推理阶段可被系统可靠识别/过滤。

2) 硬开关:enable_thinking=True/False(严格启用/禁用推理输出)

在一些实现/文档里,Qwen3 提供了“严格开关”参数:

  • enable_thinking=True:允许/鼓励输出<think>...</think>推理段

  • enable_thinking=False:禁用推理段输出(只要最终答复)

工程上这通常是通过chat template(对话模板)注入不同的系统提示或起始标记来完成的:模板在 thinking 模式下会自动包含/引导<think>

3) 软开关:/think/no_think(同一会话里按轮切换)

Qwen3 还提供了一个非常实用的“软切换机制”:当enable_thinking=True时,你可以在 user/system 消息里加:

  • /think:这一轮强制走思考模式

  • /no_think:这一轮关闭思考、直接答复
    并且模型会遵循最近一次的指令,从而实现“按轮动态决定”。

这也是很多人说的“动态决定思考与否”的主要来源——它强调的是推理时控制(inference-time control),而非重新加载另一个模型。

4) “思考预算”thinking_budget:限制推理 token,平衡效果与延迟

Qwen3 技术报告与相关文档提到thinking budget机制:让你给“思考”设置一个最多能用多少 token 的上限,以在性能/时延/成本之间做折中。

(直觉上:复杂题给更高 budget,简单题给更低甚至 0。)

5) “动态”到底是谁在决定:模型自己 vs 系统/用户?

技术报告里说“可根据用户查询或 chat template 动态切换”。
落到工程实现,通常有两种“动态”来源:

  1. 用户/上层 Agent 决策:根据任务难度,自动在 prompt 前加/think/no_think(最常见、最可控)。

  2. 服务端策略/模板决策:同一模型提供不同模板入口(thinking vs non-thinking),路由逻辑由系统规则或产品策略决定。

也就是说,“动态”更多是可控切换,而不是模型内部“自发地决定要不要想”。


如果你愿意,我可以给一个 Agent 里“自动判定是否/think”的实用策略(基于:任务类型、约束数量、是否需要工具、多跳检索、失败重试次数、以及预算上限),并给一份可直接用的伪代码/提示模板。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/11 4:18:03

3大技术突破:解密2025年最值得关注的开源中文字体

3大技术突破&#xff1a;解密2025年最值得关注的开源中文字体 【免费下载链接】LxgwWenKai LxgwWenKai: 这是一个开源的中文字体项目&#xff0c;提供了多种版本的字体文件&#xff0c;适用于不同的使用场景&#xff0c;包括屏幕阅读、轻便版、GB规范字形和TC旧字形版。 项目…

作者头像 李华
网站建设 2026/4/12 14:23:27

GPEN测试图来源?Solvay_conference_1927历史照片背景介绍

GPEN测试图来源&#xff1f;Solvay_conference_1927历史照片背景介绍 1. 镜像环境说明 组件版本核心框架PyTorch 2.5.0CUDA 版本12.4Python 版本3.11推理代码位置/root/GPEN 主要依赖库&#xff1a; - facexlib: 用于人脸检测与对齐 - basicsr: 基础超分框架支持 - opencv-p…

作者头像 李华
网站建设 2026/4/11 9:16:44

YOLOv13模型版本管理:云端Git集成,团队协作无忧

YOLOv13模型版本管理&#xff1a;云端Git集成&#xff0c;团队协作无忧 在AI实验室中&#xff0c;多人协作开发YOLOv13目标检测模型是常态。但你是否也遇到过这样的问题&#xff1a;小王改了数据增强策略却没通知大家&#xff0c;小李训练出一个高精度模型却找不到对应的代码版…

作者头像 李华
网站建设 2026/4/15 14:16:23

Python3.9 vs 3.10对比评测:云端GPU 3小时完成,成本仅5元

Python3.9 vs 3.10对比评测&#xff1a;云端GPU 3小时完成&#xff0c;成本仅5元 你是不是也遇到过这样的情况&#xff1a;公司要上新项目&#xff0c;技术主管让你评估用哪个Python版本更合适&#xff0c;结果团队里有人坚持用稳定的3.9&#xff0c;有人力推新特性的3.10&…

作者头像 李华
网站建设 2026/4/13 21:48:26

华硕笔记本性能控制神器GHelper:免费轻量级替代方案完全指南

华硕笔记本性能控制神器GHelper&#xff1a;免费轻量级替代方案完全指南 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项…

作者头像 李华
网站建设 2026/4/10 21:33:44

MediaInfo视频分析工具安装配置完全指南

MediaInfo视频分析工具安装配置完全指南 【免费下载链接】MediaInfo Convenient unified display of the most relevant technical and tag data for video and audio files. 项目地址: https://gitcode.com/gh_mirrors/me/MediaInfo MediaInfo是一款功能强大的开源视频…

作者头像 李华