news 2026/4/1 22:17:10

领域数据优于教师知识:NLU模型蒸馏的关键发现

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
领域数据优于教师知识:NLU模型蒸馏的关键发现

领域数据优于教师知识:用于蒸馏NLU模型

会议:EMNLP 2022

相关出版物:Knowledge distillation transfer sets and their impact on downstream NLU tasks

知识蒸馏是一种将大型机器学习模型压缩至可管理大小的流行技术,使其适用于语音助手等低延迟应用。在蒸馏过程中,一个轻量级模型(称为学生模型)会在特定数据集(称为迁移集)上接受训练,以模仿源模型(称为教师模型)。迁移集的选择对生成高质量的学生模型至关重要,但如何进行选择远非易事。在自然语言理解应用中,教师模型通常在通用语料库上进行预训练,这可能与用于微调的特定任务语料库不同。这就引出了一个自然的问题:学生模型应该在通用语料库上进行蒸馏以学习高质量的教师预测,还是在更符合微调目标的特定任务语料库上进行蒸馏?

在提交给2022年自然语言处理经验方法会议的论文中,我们探讨了这个问题,并证明仅使用特定任务数据蒸馏的模型在其目标任务上的表现优于那些使用特定任务和通用数据混合进行蒸馏的模型。换句话说,在目标领域数据上进行蒸馏比单纯依赖教师知识能提供更好的性能。

然而,我们证实,即使是在混合数据上进行蒸馏也是有益的,学生模型的表现优于从头开始训练的同等规模模型。我们还研究了在教师模型完成预训练但尚未进行微调时进行蒸馏,这样只有学生模型会进行微调。我们发现,在蒸馏之前先让教师模型适应迁移集(这种成本更高的策略)能产生最佳的学生模型。

蒸馏多样性

在我们的实验中,我们使用通用数据和特定任务数据按三种不同比例混合,从一个大型多语言教师模型中蒸馏出一组多语言学生模型:

  • 比例1:仅通用数据(基线)
  • 比例2:7:3的通用数据与特定任务数据(模拟低资源场景)
  • 比例3:仅特定任务数据

那么,什么是通用数据和特定任务数据?通用数据通常是公开可用的、与任何特定任务无关的非标注数据。在未标注数据上进行模型训练通常涉及自监督学习;在我们的案例中,这意味着遮蔽文本中的单词并训练模型进行填充(遮蔽语言建模)。

特定任务数据是经过标注以指示任务正确执行的数据。在我们的案例中,我们探索了两个下游任务:领域分类和联合意图分类与命名实体识别,我们的特定任务数据也相应进行了标注。

我们在两种类型的测试集(testtail_test)以及四种感兴趣的语言(德语、法语、意大利语和西班牙语)上评估了我们的模型。test集包含完整的测试拆分,而tail_testtest中那些出现频率为三或更低的数据点子集。tail_test集允许我们衡量模型对在训练中罕见数据的泛化能力。

我们研究和评估的两个基线模型和四个实验模型的示意图。

我们所有的实验模型和基线模型都具有相同数量的参数。通用蒸馏基线是通过仅使用通用数据(比例1)蒸馏一个学生模型创建的。直接预训练基线是使用通用数据从头开始预训练,然后在特定任务数据上进行微调。

我们创建了四个蒸馏后的学生编码器,其中两个直接使用比例2和比例3的数据集进行蒸馏。其余两个以相同方式创建,但教师在蒸馏前使用特定任务数据集各进行了一百万步的微调。这使得我们能够对教师适应目标任务的情况进行基准测试。

在评估领域分类和联合意图分类与命名实体识别任务性能时,我们为每个编码器添加了一个相应的解码器。相对于基线,F1分数的变化被用作领域分类的改进指标,语义错误率的变化被用作联合意图分类与命名实体识别的改进指标。

针对通用蒸馏基线的每种蒸馏编码器和每种语言的百分比改进(领域分类任务)。F1分数变化正向表示更好。

联合意图分类与命名实体识别任务的结果。在这种情况下,负向表示更好。

在领域分类任务上,我们的结果表明,当迁移集中包含特定任务数据时,各方面都有改进,其中仅使用特定任务数据带来的改进最大。在联合意图分类与命名实体识别任务中,我们看到了类似的结果,仅使用特定任务数据蒸馏的编码器改进更大。

致谢:我们要感谢论文的共同作者对此工作的贡献。

研究领域

  • 对话式AI
  • 机器学习

标签

  • 知识蒸馏
  • 自然语言理解
  • EMNLP
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
    对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/29 0:15:48

Creo许可证管理绩效评估指标体系

Creo许可证管理绩效评估指标体系:为什么它很重要?作为一名长期从事CAD软件管理工作的技术人员,我经常会遇到一个问题:如何衡量我们所使用的Creo许可证管理系统的运行效率和使用效果?是在企业规模扩展、项目需求增多的情…

作者头像 李华
网站建设 2026/3/29 15:45:00

参数运行文档的使用

摘要对于给定的光学系统,通过控制和调整选定的参数来检查其性能是很有帮助的。VirtualLab Fusion 提供了一个完全灵活且计算效率高(通过并行化)的参数运行功能,使用户能够指定不同的参数变化方式。举个例子,它可以用于…

作者头像 李华
网站建设 2026/3/30 18:54:33

2026必备!本科生毕业论文必备!9款AI论文网站深度测评

2026必备!本科生毕业论文必备!9款AI论文网站深度测评 2026年本科生论文写作工具测评:为何需要这份榜单? 随着AI技术的不断进步,越来越多的本科生开始借助AI工具辅助论文写作。然而,面对市场上琳琅满目的A…

作者头像 李华
网站建设 2026/3/31 2:49:23

HoRain云--SpringCache整合Redis缓存最佳实践

🎬 HoRain 云小助手:个人主页 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!忍不住分享一下给大家。点击跳转到网站。 目录 ⛳️ 推荐 …

作者头像 李华
网站建设 2026/3/14 10:21:55

HoRain云--解决8080端口占用的3种高效方案

🎬 HoRain 云小助手:个人主页 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!忍不住分享一下给大家。点击跳转到网站。 目录 ⛳️ 推荐 …

作者头像 李华
网站建设 2026/3/26 2:22:07

HoRain云--Go语言递归函数详解与优化技巧

🎬 HoRain云小助手:个人主页 🔥 个人专栏: 《Linux 系列教程》《c语言教程》 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!…

作者头像 李华