news 2026/3/13 4:16:32

千帆平台目前不支持用户自助上传自定义词表(vocabulary)进行训练 Post-pretrain 阶段 SFT都不支持

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
千帆平台目前不支持用户自助上传自定义词表(vocabulary)进行训练 Post-pretrain 阶段 SFT都不支持

是的,千帆平台目前不支持用户自助上传自定义词表(vocabulary)进行训练

具体限制说明

1.Post-pretrain 阶段

  • 固定词表:基于选定的基座模型(如 ERNIE、Llama、Baichuan 等)进行增量训练,必须使用模型原有的词表,不可修改
  • 不扩词表机制:千帆明确说明"精调过程不会扩词表",即使您的语料中包含大量未登录词(OOV),模型也会用子词(subword)或字符组合来编码,而不会添加新词到词表

2.Pretrain(从头训练)阶段

  • 暂不支持自助上传:千帆官方文档指出"目前暂时不支持直接上传自定义词表到平台进行预训练"
  • 平台已优化:千帆已对主流开源模型(如 Llama2)做了中文词表扩充和 tokenizer 优化,一般情况下无需自行扩展词表

3.SFT 监督微调阶段

同样基于选定基座模型的固定词表,不支持词表修改。

替代解决方案

如果确实有自定义词表需求(如特殊领域符号、多语言混合、专业缩写等),可考虑:

方案操作方式适用场景
本地修改后上传在本地完成词表扩展和继续预训练,再将训练好的模型上传到千帆进行推理或进一步微调有强算力资源,需深度定制
多轮 Post-pretrain如果术语量不大,可通过大量高质量语料让模型充分学习这些术语的上下文表示术语量 < 1万,有充足语料
特殊字符编码用现有词表的子词组合表示特殊符号(如将"α"编码为"a" + “l” + “p” + “h” + “a”)符号数量少,可接受长度增加
联系商务通过百度商务渠道洽谈定制化训练需求企业级大规模定制

为什么千帆这样设计?

  1. 训练稳定性:动态扩词表会破坏已学习的嵌入空间,导致灾难性遗忘
  2. 推理兼容性:修改词表后,模型与标准推理引擎兼容性变差
  3. 平台统一性:千帆作为多租户平台,需要保证模型格式标准化

建议

如果您的领域包含大量专业术语:

  • 首选方案:直接准备包含这些术语的高质量纯文本语料(Post-pretrain 格式),让模型通过上下文学习术语语义。实践证明,只要语料充分(建议 10 亿 tokens 以上),模型无需扩词表也能很好地理解和生成专业术语
  • 次选方案:若术语编码效率是关键(如需要极短上下文),建议在本地使用sentencepiecetransformers训练自定义 tokenizer,完成初步预训练后,再将模型上传到千帆平台进行 SFT 或部署

简单来说:千帆只提供"在固定词表上训练"的服务,如需改词表,需在本地完成

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/13 16:57:40

OFA视觉问答模型惊艳效果:AR眼镜实时取景问答延迟实测

OFA视觉问答模型惊艳效果&#xff1a;AR眼镜实时取景问答延迟实测 你有没有想过&#xff0c;戴上一副轻便的AR眼镜&#xff0c;眼前的世界就能“开口说话”&#xff1f;拍一张照片、提一个问题&#xff0c;几秒钟内就得到准确答案——这不是科幻电影&#xff0c;而是OFA视觉问…

作者头像 李华
网站建设 2026/3/13 2:04:19

AI人像抠图实战:BSHM镜像让换背景变得高效又省心

AI人像抠图实战&#xff1a;BSHM镜像让换背景变得高效又省心 你有没有遇到过这样的场景&#xff1a;刚拍完一组产品人像图&#xff0c;客户临时要求全部换成纯白背景&#xff1b;或者设计海报时&#xff0c;发现原图人物边缘毛躁、发丝粘连&#xff0c;手动抠图花掉两小时还效…

作者头像 李华
网站建设 2026/3/13 14:05:07

小白也能做修图师:fft npainting lama入门实践

小白也能做修图师&#xff1a;FFT NPainting Lama入门实践 你是不是也遇到过这样的困扰&#xff1a;一张精心拍摄的照片&#xff0c;却被路人、电线杆、水印或者乱入的杂物破坏了整体美感&#xff1f;想用专业软件修图&#xff0c;却发现Photoshop操作复杂、学习成本高&#x…

作者头像 李华
网站建设 2026/3/13 5:46:37

保姆级教学:在AMD集群运行verl全过程

保姆级教学&#xff1a;在AMD集群运行verl全过程 1. 为什么选择verl&#xff1f;它到底能做什么 你可能已经听说过强化学习&#xff08;RL&#xff09;在大模型后训练中的重要性——比如让Qwen、Llama这类模型更懂人类偏好、更会拒绝有害请求、更擅长数学推理。但真正动手跑一…

作者头像 李华
网站建设 2026/3/13 6:14:23

模型太大部署难?CosyVoice-300M轻量版一键部署解决方案

模型太大部署难&#xff1f;CosyVoice-300M轻量版一键部署解决方案 1. 为什么轻量语音模型突然成了刚需&#xff1f; 你有没有遇到过这样的场景&#xff1a; 想给内部知识库加个“听文章”功能&#xff0c;却发现主流TTS模型动辄几个GB&#xff0c;光是下载和加载就要等十分钟…

作者头像 李华
网站建设 2026/3/14 1:46:30

新手踩坑实录:这些Heygem错误可以避免

新手踩坑实录&#xff1a;这些Heygem错误可以避免 刚上手 Heygem 数字人视频生成系统时&#xff0c;你可能信心满满——上传音频、拖入视频、点下“开始生成”&#xff0c;结果却卡在进度条不动、缩略图不显示、下载按钮灰掉、甚至页面直接报错弹窗……别急&#xff0c;这不是…

作者头像 李华