news 2026/6/9 21:23:48

ScalingLaws-2022-Chinchilla-2:既然Dₒₚₜ/Nₒₚₜ≈20,为什么LLaMA系列用的D/N远大于20【Chinchilla比例:每个参数大约对应20个token】

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ScalingLaws-2022-Chinchilla-2:既然Dₒₚₜ/Nₒₚₜ≈20,为什么LLaMA系列用的D/N远大于20【Chinchilla比例:每个参数大约对应20个token】

每个参数大约对应 20 个 token(常被叫作Chinchilla 比例)并不是一条“宇宙定律”。

你看到LLaMA 系列的 token/参数 比值远大于 20,核心原因是:他们优化的目标、约束条件、以及用来拟合的“最优前沿(frontier)”都变了

尤其从 Llama 3 开始,论文里甚至明确承认:小模型会被“刻意训练得比 compute-optimal 更久”,因为这样在同等推理成本(inference budget)下更强

一、先把“20”从哪来讲清楚:它来自 Chinchilla 论文的 compute-optimal 前沿

Chinchilla(Hoffmann et al., 2022 / 2203.15556)要解的问题是:

在固定训练计算量(FLOPs 预算)下,参数量和训练 token 数怎么分配,才能让 loss 最小?

论文里把训练计算量近似写成(文中用 FLOPs 估算;常见近似形式之一是与N ⋅

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/6 13:07:25

Dify 实战:通过 Dify 快速接入 MCP Server

作为一款领先的 LLM 应用开发平台,Dify 原生支持 MCP 协议,让开发者无需安装插件即可轻松对接各类 MCP Server,实现 AI 模型与外部工具的无缝交互。本文将演示如何在 Dify 中快速接入高德地图 MCP Server。 1. 前提条件 已在服务器中部署 D…

作者头像 李华
网站建设 2026/6/6 13:01:13

开题报告 药店药品管理系统

目录 药店药品管理系统概述系统核心功能技术架构数据安全与合规性用户界面设计扩展性与集成应用价值 项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 药店药品管理系统概述 药店药品管理系统是一款专为药…

作者头像 李华
网站建设 2026/6/7 19:46:48

《提示工程架构师:开启Agentic AI创新价值宝库的钥匙》

《提示工程架构师:开启 Agentic AI 创新价值宝库的钥匙》 ——从 Prompt 到 Production 的 10 000 字全景指南 作者:老鱼聊架构 一、引言:当“会说话”的 AI 开始“会做事” “如果未来的软件不再由程序员一行行编写,而是由一位‘…

作者头像 李华
网站建设 2026/6/5 12:48:05

用户画像技术进阶:大数据挖掘与标签体系构建

用户画像技术进阶:大数据挖掘与标签体系构建 关键词:用户画像、大数据挖掘、标签体系、数据建模、精准营销 摘要:用户画像是互联网时代企业理解用户的"数字眼睛",本文将从大数据挖掘技术原理到标签体系构建全流程展开&a…

作者头像 李华