news 2026/2/3 21:51:16

Proteno模型:仅需3%训练数据的高效文本归一化技术

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Proteno模型:仅需3%训练数据的高效文本归一化技术

在诸如Alexa这类使用合成语音输出的服务中,文本归一化通常是文本转语音转换过程的第一步。文本归一化接收原始文本输入(例如字符串“6-21-21”),并将其扩展为可供文本转语音模型用于生成最终语音的口语化形式(例如“twenty first of June twenty twenty one”)。

历史上,文本归一化算法依赖于硬编码规则,这些规则无法跨语言泛化且难以维护:一个典型的基于规则的单语言文本归一化系统可能包含数千条规则,这些规则会随着时间演变,其开发需要语言学专业知识。

最近,学术界和工业界的研究人员开始开发基于机器学习的文本归一化模型。但这些模型也有缺点。序列到序列模型偶尔会犯下不可接受的错误,例如将“$5”转换为“five pounds”。符号分类模型需要由语言学专家创建的特定领域信息类别(例如表情符号电话号码),这限制了其泛化能力。这两种类型的模型都需要大量的训练数据,使得跨语言扩展变得困难。

在本年度北美计算语言学协会会议上,介绍了一种名为Proteno的新型文本归一化模型,旨在应对这些挑战。

研究在英语、西班牙语和泰米尔语三种语言上评估了Proteno。关于英语的文本归一化研究已有大量成果,但西班牙语和泰米尔语此前没有公开的文本归一化数据集。因此,创建了新的数据集,并已公开发布供其他文本归一化研究人员使用。

Proteno仅指定了少数低级别的归一化类别(例如序数、基数或罗马数字),这些类别能很好地跨语言泛化。然后,Proteno从数据中学习大量额外的细粒度类别。例如,在英语实验中,使用了8个预定义类别,而Proteno自动生成了另外2658个。相比之下,符号分类模型通常只有大约20个类别。

Proteno还使用了一种简单但有效的令牌化方案,即将文本分割成更小的片段。先前的令牌化技术需要语言学知识或数据密集型训练;而Proteno的令牌化技术只是在空格处以及Unicode类别(如字母数字标点符号)之间的转换处进行分割。因此,它能够跨语言泛化,使大部分归一化规则能够从数据中学习,并减少了不可接受错误的发生率。

这些技术结合在一起,也使得Proteno所需的训练数据比之前的机器学习方法少得多。在实验中,Proteno在英语上提供了与先前最先进技术相当的性能,而所需的训练数据仅为后者的3%。

由于之前没有在西班牙语和泰米尔语上训练的文本归一化模型,因此实验没有基准数据可供比较。但在可比的训练数据量下,在泰米尔语和西班牙语上训练的Proteno模型达到了与英语训练模型相当的准确率(西班牙语99.1%,泰米尔语96.7%,英语97.4%)。

方法

Proteno将文本归一化视为一个序列分类问题,其中大多数类别是学习得到的。下图说明了Proteno的训练和运行时处理流程,它们的顺序略有不同。

训练流程包括以下步骤:

  1. 令牌化:先前的方法依赖于语言学家设计的语言特定规则。例如,字符串“6-21-21”将被视为单个日期类型的令牌。提出了一种细粒度的令牌化机制,它是语言独立的,适用于任何空格分隔的语言。待归一化的文本首先在其空格处分割,然后在Unicode类别发生变化的地方进一步分割。因此,字符串“6-21-21”变成了五个令牌,依靠Proteno来学习如何正确处理它们。
  2. 标注:对令牌化后的未归一化文本进行逐个令牌的标注,从而得到每个未归一化令牌与其真实归一化之间的一对一映射。这些数据将用于训练模型。
  3. 类别生成:然后将每个令牌映射到一个类别。一个类别可能只接受特定类型的令牌;例如,与美元对应的类别不接受英镑类型,反之亦然。这防止了模型犯下不可接受的错误。每个类别还有一个相关联的归一化函数
    有两类类别:
    • 预定义类别:定义了有限数量的类别(大约8-10个),包含基本的归一化规则。其中一小部分(3-5个)包含语言特定的规则,例如如何区分数字的基数序数用法。其他类别(如自身数字罗马数字)在许多语言中保持相似。
    • 自动生成类别:模型还通过分析数据集中的未归一化到归一化令牌映射来自动生成类别。如果现有类别(预编码或自动生成)无法为训练数据中的某个令牌生成目标归一化,则会自动生成一个新类别。例如,如果数据集包含注释“12→December”,并且没有现有类别可以生成此归一化,则创建类别“12_to_December_AG”。该类仅接受“12”,其归一化函数返回“December”。
      自动生成类别使Proteno能够自动从数据中学习大多数归一化规则。
  4. 分类:将文本归一化建模为一个序列标记问题,其中输入是未归一化令牌的序列,输出是能够生成归一化文本的类别序列。实验了四种不同类型的分类器:条件随机场、双向长短期记忆模型、双向长短期记忆-条件随机场组合和Transformer。

数据集

由于Proteno的目标是适用于多种语言,因此在英语、西班牙语和泰米尔语三种语言上对其进行了评估。英语的自动生成类别数量显著多于泰米尔语或西班牙语,因为书面英语倾向于使用比另外两种语言更多的缩写。

语言预定义类别总数语言特定预定义类别自动生成类别
西班牙语105279
泰米尔语8374
英语842,658

为了基准测试Proteno在英语上的性能,只能在现有数据集中13个预定义类别中的11个上与早期模型进行比较;令牌化方案的差异意味着另外两个类别没有逻辑映射。这些结果表明,Proteno是在低数据标注需求下进行文本归一化的有力候选方案,同时能抑制不可接受的错误,这将使其成为生产级文本转语音模型的稳健且可扩展的解决方案。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/3 19:34:58

基于多尺度空洞注意力(MSDA)的YOLOv11改进与视觉识别优化

文章目录 毕设实战:基于多尺度空洞注意力(MSDA)的YOLOv11改进与视觉识别优化 一、技术背景与方案优势 二、环境搭建与依赖准备 2.1 虚拟环境配置 2.2 数据集准备 三、MSDA模块的代码实现 3.1 多尺度空洞注意力(MSDA)核心代码 3.2 嵌入MSDA到YOLOv11的Backbone 四、模型训练…

作者头像 李华
网站建设 2026/2/3 18:32:53

基于H-S FPN的YOLOv11 Neck模块优化(超轻量高精度特征融合方案)

文章目录 研发实战:基于H-S FPN的YOLOv11 Neck模块优化(超轻量高精度特征融合方案) 一、技术背景与方案价值 二、环境搭建与依赖配置 2.1 虚拟环境创建 2.2 数据集准备 三、H-S FPN模块的代码实现 3.1 分层特征选择(H-S)核心组件 3.2 H-S FPN的Neck结构实现 3.3 替换YOLOv…

作者头像 李华
网站建设 2026/2/3 21:43:05

Claude Code 算是被我玩明白了

坦白说,现在每个开发者都在用 AI 写代码,作为写了十年代码的老开发,我曾以为“熟练切屏”是程序员的必修课。但过去两年,我至少换了 5 款 AI 编程插件,每个工具都很好,但它们彼此是孤立的。我不得不在IDE、…

作者头像 李华
网站建设 2026/1/19 19:31:45

你以为日期选择器很简单?我刚进团队就被它狠狠干了一周

我最近加入了一个新团队。那种“成熟到可怕”的 Design System 团队:Figma 命名规矩、代码语义清晰、会议都有议程——你甚至能在日历里看到“讨论结束时间”。 但我第一次见识到他们的“当下大麻烦”,不是在什么战情室,也不是在发布事故复盘…

作者头像 李华
网站建设 2026/2/2 23:11:01

漫谈人机协同中的人机功能分配

在人机协同的分工逻辑中,“人杂机复”与“人道机术”是两种互补且有深度的视角,分别从任务属性和职能定位两个维度,揭示了人类与机器在协同中的核心优势与边界。两者结合,为人机协同的高效实现提供了完整的理论框架。一、基于任务…

作者头像 李华
网站建设 2026/2/3 6:38:27

美国战争部AI加速战略的核心就是人机环境系统智能

美国战争部近期启动的AI加速战略,表面上是推动军事AI技术的快速部署与领先,但其深层逻辑可归结为以“人机环境系统智能”为核心,通过重构人(军事人员)、机(AI技术)、环境(任务场景&a…

作者头像 李华