Fun-ASR语音摘要功能拓展：识别后自动提取关键信息-洪萨配资

Fun-ASR语音摘要功能拓展：识别后自动提取关键信息

1. 引言

随着语音交互场景的不断扩展，企业会议、客服录音、访谈记录等大量音频内容亟需高效的信息处理手段。传统的语音识别（ASR）系统仅能完成“语音转文字”的基础任务，用户仍需手动从冗长文本中提取核心信息，效率低下。

Fun-ASR 是由钉钉与通义联合推出的语音识别大模型系统，由开发者“科哥”主导构建，具备高精度、多语言支持和灵活部署能力。在已有强大 ASR 能力的基础上，本文将重点介绍其语音摘要功能的拓展实现——即在语音识别完成后，自动对文本进行语义分析，提取关键信息如时间、地点、人物、事件、决策项等，形成结构化摘要，显著提升信息获取效率。

该功能特别适用于会议纪要生成、客户意图识别、舆情监控等高价值场景，真正实现从“听清”到“理解”的跨越。

2. 功能架构与技术原理

2.1 整体流程设计

语音摘要功能并非独立模块，而是嵌入于 Fun-ASR 的后处理流水线中，形成“识别 → 规整 → 摘要 → 输出”的完整链条：

[音频输入] ↓ [Fun-ASR 语音识别] → 原始文本 ↓ [ITN 文本规整] → 标准化文本（如数字、日期转换） ↓ [关键信息抽取引擎] → 结构化摘要（JSON + 可视化） ↓ [结果展示/导出]

2.2 关键信息抽取技术选型

为实现高效准确的信息提取，系统采用规则+模型混合策略，兼顾准确性与可解释性。

技术方案对比

方案	准确率	灵活性	开发成本	实时性	适用场景
正则表达式匹配	中	低	低	高	固定格式信息（电话、时间）
NLP 规则引擎（SpaCy）	高	中	中	高	通用实体识别
微调小模型（BERT-NER）	高	高	高	中	复杂语境理解
大模型提示工程（LLM Prompting）	极高	极高	中	低	多跳推理、摘要生成

最终系统采用SpaCy + LLM 提示工程的双层架构：

第一层（快速过滤）：使用 SpaCy 对中文进行命名实体识别（NER），提取人名、组织、时间、地点等基础实体。
第二层（深度理解）：将规整后的文本送入本地部署的轻量级大模型（如 Qwen-1.8B），通过精心设计的 Prompt 提取决策项、待办事项、争议点等高层语义信息。

2.3 核心算法逻辑

import spacy from transformers import pipeline # 加载中文 NER 模型 nlp = spacy.load("zh_core_web_sm") # 初始化本地 LLM 摘要管道 summarizer = pipeline( "text-generation", model="Qwen/Qwen-1_8B-Chat", device=0 # GPU ) def extract_key_info(transcribed_text: str) -> dict: # Step 1: 使用 SpaCy 提取基础实体 doc = nlp(transcribed_text) entities = {} for ent in doc.ents: if ent.label_ not in entities: entities[ent.label_] = [] entities[ent.label_].append(ent.text) # Step 2: 构造 Prompt 进行高层信息提取 prompt = f""" 请从以下会议记录中提取关键信息，以 JSON 格式返回： - 决策事项 - 待办任务（含负责人和截止时间） - 主要争议点 - 下一步计划 会议内容： {transcribed_text} 输出格式： {{ "decisions": [...], "tasks": [ {{"task": "...", "owner": "...", "deadline": "..."}} ], "controversies": [...], "next_steps": [...] }} """ # 调用本地 LLM 生成结构化输出 result = summarizer(prompt, max_new_tokens=512, do_sample=True) structured_output = parse_json_from_response(result[0]['generated_text']) return { "basic_entities": entities, "structured_summary": structured_output }

说明：该代码片段展示了关键信息抽取的核心逻辑，实际部署中会加入缓存机制、错误重试和超时控制。

3. WebUI 功能集成与使用指南

3.1 新增“语音摘要”选项卡

在原有 WebUI 基础上，新增“语音摘要”功能入口，位于“语音识别”与“实时流式识别”之间。

3.2 使用步骤详解

1. 上传或录制音频

操作方式与基础语音识别一致： - 支持上传 WAV、MP3、M4A、FLAC 等格式 - 支持麦克风实时录音

2. 配置识别参数

目标语言：中文（默认）、英文、日文
启用 ITN：建议开启，确保“二零二五年”转为“2025年”
热词列表：可添加业务术语，如“星图镜像”、“Fun-ASR”

3. 启用摘要模式

新增复选框： - [ ] 启用语音摘要（自动提取关键信息）

勾选后，系统将在识别完成后自动触发摘要引擎。

4. 查看结构化结果

识别完成后，页面分为三栏展示：

区域	内容
左侧	原始音频波形 + 播放控制
中部	逐句识别文本（带时间戳）
右侧	结构化摘要面板

结构化摘要面板内容示例：

{ "basic_entities": { "PERSON": ["张总", "李经理"], "ORG": ["钉钉", "通义实验室"], "DATE": ["2025年12月20日"] }, "structured_summary": { "decisions": [ "确定 Fun-ASR v1.0.0 版本于 2025年12月20日发布" ], "tasks": [ { "task": "完成 CSDN 星图镜像集成文档", "owner": "李经理", "deadline": "2025年12月25日" } ], "controversies": [ "关于是否支持粤语方言存在分歧" ], "next_steps": [ "组织跨部门评审会议" ] } }

支持一键复制 JSON 或导出为.summary.json文件。

4. 应用场景与实践优化

4.1 典型应用场景

场景	价值点	配置建议
企业会议纪要	自动生成决策与待办，节省人工整理时间	开启 ITN + 添加组织/人员热词
客服对话分析	快速定位客户投诉点与服务承诺	使用英文热词（如 SLA、refund）
访谈内容提炼	提取专家观点与核心论据	关闭 ITN 保留口语表达
学术讲座记录	梳理知识点与引用文献	添加专业术语热词库

4.2 性能优化建议

尽管摘要功能带来巨大便利，但涉及大模型推理，需注意性能调优：

硬件配置建议
推荐使用 NVIDIA GPU（至少 8GB 显存）
若仅使用 CPU，建议关闭 LLM 层，仅保留 SpaCy 基础抽取
批处理优化
批量处理时，摘要功能默认关闭
如需开启，建议每批次不超过 10 个文件，避免内存溢出
缓存机制
系统自动缓存已处理音频的摘要结果
相同文件再次上传时直接返回历史结果，提升响应速度
Prompt 工程调优
可在config/prompt_template.txt中自定义摘要模板
示例：针对法律场景可修改为提取“争议焦点”、“证据清单”等字段

5. 常见问题与解决方案

Q1: 摘要生成很慢，如何提速？

A: - 确保使用 GPU 模式运行 LLM - 检查config/model_config.yaml中是否启用use_local_llm: true- 若无需复杂推理，可在设置中关闭“高级摘要”，仅使用 SpaCy 基础抽取

Q2: 提取的任务负责人不准确？

A: - 在热词列表中添加团队成员姓名 - 确保音频中称呼规范，如“王工负责”优于“那个谁来弄一下” - 可调整 Prompt 中的指令权重，强化“必须明确负责人”要求

Q3: 中文日期识别错误？

A: - 确认已开启 ITN（文本规整）功能 - 检查音频质量，避免“二零二五”被误听为“二十世纪” - 可在正则规则中补充常见日期表达式

Q4: 如何自定义摘要字段？

A: 编辑prompt_template.txt文件，例如改为适合医疗场景的模板：

请提取： - 主诉症状 - 初步诊断 - 处方药品 - 复诊时间

系统将在下次识别时加载新模板。

6. 总结

Fun-ASR 不仅是一个高精度的语音识别系统，更通过语音摘要功能的拓展，实现了从“转录工具”到“智能信息助手”的跃迁。结合 SpaCy 的高效实体识别与本地 LLM 的深层语义理解，系统能够在识别完成后自动提取结构化关键信息，极大提升会议、客服、访谈等场景下的信息处理效率。

通过 WebUI 的无缝集成，用户无需编写代码即可享受智能化服务。未来版本将进一步支持： - 自定义领域模型微调 - 多轮对话状态追踪 - 与企业知识库联动验证事实

语音智能的终点不是“听见”，而是“理解”。Fun-ASR 正在这一方向持续迈进。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Fun-ASR语音摘要功能拓展：识别后自动提取关键信息