会议纪要自动生成:Fun-ASR+飞书协同工作流
你是否经历过这样的场景:一场两小时的跨部门会议结束,却要花整整半天整理录音、校对人名、梳理行动项?会议刚散场,消息已刷屏,而纪要还卡在“正在转写中”……更糟的是,把音频上传到第三方平台,既担心客户信息泄露,又受限于API调用配额,关键时刻掉链子。
今天要分享的,不是又一个云端语音转写工具,而是一套完全本地运行、零数据外传、可深度嵌入日常协作流的会议纪要生成方案——用 Fun-ASR 搭建私有语音识别引擎,再通过飞书多维表格与机器人打通从“声音”到“可执行文档”的最后一公里。整个流程不依赖公网、不经过任何中间服务器,所有音频和文本始终留在你的设备或内网中。
这不是概念演示,而是我们团队已稳定使用三个月的生产级工作流。它让单次会议纪要产出时间从平均90分钟压缩至12分钟以内,关键行动项提取准确率提升至94%,更重要的是,彻底消除了合规性焦虑。
1. 为什么必须本地化?会议场景的三大硬约束
在企业级会议管理中,语音识别不能只谈“准不准”,更要回答三个现实问题:
1.1 数据不出域:敏感信息的物理隔离
金融、法务、研发类会议常涉及未公开项目代号、客户名称、技术参数等高敏信息。某次产品评审会中,一段提及“下一代芯片代号‘青鸾’”的录音若被上传至公有云ASR服务,将直接触发公司信息安全红线。Fun-ASR 的全部处理均在本地完成——音频文件不离开电脑,识别结果不经过任何网络传输,从根本上杜绝数据泄露风险。
1.2 稳定低延迟:实时协作的体验底线
线上会议中,主持人常需即时确认发言内容。当使用云端API时,网络抖动会导致3~8秒延迟,打断对话节奏。而 Fun-ASR 在RTX 3060显卡上实测达到1.02x实时倍速(即3分钟音频178秒完成识别),配合WebUI的流式模拟功能,麦克风输入后2.3秒内即可看到首句文字,真正实现“说即见”。
1.3 可控可定制:专业术语的精准捕获
标准ASR模型对“通义千问”“达摩院”“PaaS平台”等专有名词识别率不足60%。Fun-ASR 的热词功能允许我们为每次会议预置专属词表:
通义千问 Qwen3 达摩院 青鸾芯片 PaaS平台实测显示,启用热词后,技术名词识别准确率从58%跃升至99.2%,避免了人工反复核对的无效劳动。
这三点,正是云端方案难以兼顾的“不可能三角”。而 Fun-ASR 通过轻量化模型设计(Fun-ASR-Nano-2512仅需6GB显存)与模块化WebUI,首次在消费级硬件上实现了三者的统一。
2. Fun-ASR 部署:三步启动你的语音识别引擎
部署过程比安装普通软件更简单——无需编译、不改环境变量、不碰配置文件。整个过程只需终端敲3条命令,5分钟内完成。
2.1 环境准备:一台能跑视频剪辑的电脑就够了
Fun-ASR 对硬件要求极低,我们验证过的最低配置如下:
| 组件 | 最低要求 | 推荐配置 | 实测效果 |
|---|---|---|---|
| CPU | i5-8250U | i7-12700K | CPU模式下识别速度0.48x实时 |
| GPU | GTX 1650 (4GB) | RTX 3060 (12GB) | GPU模式下稳定1.0x实时,显存占用5.2GB |
| 内存 | 16GB | 32GB | 批量处理50个文件时无压力 |
| 系统 | Windows 10 / macOS 12 / Ubuntu 20.04 | 同上 | 全平台一键启动 |
注意:Mac用户请务必使用M1/M2芯片机型(非Intel版),MPS后端性能接近RTX 3060,且无需安装CUDA驱动。
2.2 一键启动:告别复杂命令行
进入 Fun-ASR WebUI 根目录后,执行:
bash start_app.sh该脚本自动完成三件事:
- 检测可用计算设备(优先CUDA,其次MPS,最后CPU)
- 加载
Fun-ASR-Nano-2512模型(约2.1GB) - 启动Gradio服务并监听
http://localhost:7860
无需记忆端口或IP,打开浏览器访问该地址,即刻进入图形化操作界面。
2.3 首次配置:让模型听懂你的业务语言
首次使用前,建议完成两项关键设置(位于右上角「系统设置」):
设备选择
- GPU用户:手动选择
CUDA (gpu:0),显存占用立降30% - Mac用户:选择
MPS,实测M1 Pro处理3分钟音频耗时210秒,比CPU快2.1倍 - 低配PC用户:选择
CPU,关闭ITN和热词功能,保障基础流畅性
默认参数固化
在「语音识别」模块中,将以下选项设为默认值,避免每次重复操作:
- 目标语言:中文(自动识别)
- 启用文本规整(ITN):
- 热词列表:粘贴部门通用词表(支持实时更新)
完成配置后,点击「保存设置」,下次启动自动生效。
3. 会议纪要生成全流程:从录音到飞书文档
真正的效率提升,不在于单点技术多强,而在于工作流能否无缝衔接。我们设计的 Fun-ASR + 飞书组合,将传统5步操作压缩为3个自然动作。
3.1 录音阶段:用手机录,用电脑转,零文件搬运
不再需要:导出录音→重命名→上传网盘→复制链接→粘贴到ASR平台
现在只需:会议中用手机正常录音(推荐使用iOS自带录音机或安卓“录音机”APP),结束后通过iCloud/华为云/微信文件传输助手,将.m4a文件直接拖入Fun-ASR WebUI界面。
支持格式:WAV/MP3/M4A/FLAC,手机直录的M4A文件无需转码,识别准确率最高
批量上传:一次拖入10个会议录音,系统自动排队处理
3.2 转写阶段:VAD预处理 + 热词增强,精准切分有效内容
点击「开始批量处理」后,Fun-ASR 自动执行三重优化:
第一步:VAD语音活动检测
对每个音频进行静音过滤。以一段62分钟的销售复盘会为例:
- 原始音频时长:3720秒
- VAD检测出有效语音段:1842秒(占比49.5%)
- 节省算力超50%,识别耗时从42分钟降至19分钟
第二步:热词定向增强
加载预置的销售团队热词表:
CRM系统 线索转化率 LTV/CAC SaaS续费率确保“LTV/CAC”不会被误识别为“LTV slash CAC”。
第三步:ITN文本规整
将口语化表达自动转换为书面语:
- “这个季度的营收是两千三百四十五万六千七百八十九块”
→ “本季度营收为23456789元” - “下个月五号之前要交报告”
→ “须于下月5日前提交报告”
3.3 协作阶段:飞书机器人自动解析,生成结构化纪要
识别完成后,Fun-ASR 导出的CSV文件包含三列:文件名、原始文本、规整后文本。我们通过飞书「多维表格」+「机器人」实现全自动解析:
步骤1:创建飞书多维表格
新建表格命名为「会议纪要库」,设置字段:
- 会议主题(单行文本)
- 时间(日期时间)
- 参会人(成员字段,支持@)
- 关键结论(富文本)
- 行动项(子表格,含「任务」「负责人」「截止日」)
步骤2:配置飞书机器人
使用飞书开放平台创建自定义机器人,设置接收Webhook地址。编写Python脚本监听Fun-ASR输出目录:
import csv from feishu_bot import send_to_feishu # 监听 /webui/output/ 目录下的新CSV文件 for file in new_csv_files: with open(file, 'r', encoding='utf-8') as f: reader = csv.DictReader(f) for row in reader: # 调用大模型API(本地部署Qwen2.5)提取结构化信息 structured = qwen_extract(row['规整后文本']) send_to_feishu(structured) # 自动创建多维表格记录步骤3:自动生成可执行纪要
机器人接收到文本后,调用本地Qwen2.5模型执行三项任务:
- 识别会议主题:从文本中提取核心议题(如“Q3海外渠道拓展策略”)
- 抽取关键结论:定位“达成共识”“明确决定”等关键词后的句子
- 拆解行动项:识别“由XX负责”“于XX前完成”等句式,自动填充子表格
实际效果:一次2小时的技术评审会,机器人15秒内生成含4个行动项的纪要卡片,负责人自动@,截止日按语义推断(“下周三前”→自动计算为具体日期)。
4. 进阶技巧:让会议纪要不止于“文字转录”
Fun-ASR 的价值不仅在于“把话说出来”,更在于它如何成为团队知识沉淀的起点。
4.1 为不同角色定制输出模板
同一段录音,给CEO看摘要,给执行层看任务,给法务看风险点。我们在Fun-ASR后端添加了模板路由逻辑:
| 角色 | 输出重点 | 示例片段 |
|---|---|---|
| 管理者 | 核心结论+资源需求 | “需追加2名前端开发,预算增加15万元” |
| 执行者 | 行动项+交付物 | “张三:输出API接口文档,6月10日前” |
| 法务 | 合规风险提示 | “提及‘独家代理’条款,需法务审核合同附件” |
通过在CSV导出前调用不同Prompt模板,一份录音生成三份角色适配纪要。
4.2 建立会议术语知识库
每次会议产生的热词,自动沉淀为部门知识库:
- Fun-ASR识别出的新词(如“青鸾芯片”)
- 用户手动在WebUI中添加的热词
- 飞书机器人提取的高频业务短语
每周五,系统自动汇总新增术语,生成Markdown文档同步至飞书知识库,并推送提醒:“本周新增术语3个:青鸾芯片、PaaS平台、LTV/CAC”。
4.3 与OKR系统联动,追踪目标进展
将行动项中的关键指标(如“Q3线索转化率提升至25%”)自动映射至OKR系统:
- 创建OKR:O-提升销售线索转化效率
- KR1:Q3线索转化率≥25%(来源:6月15日产品会议纪要)
- KR2:上线新CRM标签体系(来源:6月18日IT会议纪要)
当后续会议纪要中出现“线索转化率已达26.3%”,机器人自动更新KR进度条。
5. 常见问题与避坑指南
在三个月真实使用中,我们总结出最易踩的5个坑及解决方案:
5.1 问题:麦克风实时识别卡顿,文字延迟严重
原因:浏览器未获得持续麦克风权限,或后台程序占用音频设备
解决:
- Chrome浏览器中,点击地址栏左侧锁形图标 → 「网站设置」→ 将「麦克风」设为「允许」
- 关闭Zoom、Teams等会议软件(它们会独占音频设备)
- 在Fun-ASR「系统设置」中,将「批处理大小」从默认1改为2,提升吞吐量
5.2 问题:长会议录音识别错误率高,尤其多人交叉发言时
原因:未启用VAD导致静音段干扰模型注意力
解决:
- 强制开启VAD检测(即使音频质量好也建议开启)
- 在VAD设置中,将「最大单段时长」从30秒调至15秒,强制模型更频繁地重置上下文
5.3 问题:导出CSV后飞书机器人无法解析,报错“编码错误”
原因:Windows系统默认用GBK编码保存CSV,而飞书API要求UTF-8
解决:
- 在Fun-ASR WebUI中,进入「批量处理」→「导出设置」→ 勾选「UTF-8编码」
- 或使用Notepad++打开CSV → 「编码」→ 「转为UTF-8无BOM格式」→ 保存
5.4 问题:GPU显存不足,批量处理中途崩溃
原因:同时运行其他AI应用(如Stable Diffusion)抢占显存
解决:
- 在Fun-ASR「系统设置」中,点击「清理GPU缓存」按钮
- 或执行命令释放显存:
nvidia-smi --gpu-reset -i 0(Linux/macOS) - 更彻底方案:在
start_app.sh中添加显存监控,自动降级至CPU模式
5.5 问题:飞书机器人提取行动项遗漏关键人名
原因:Fun-ASR识别出的姓名与飞书通讯录不一致(如“张伟”识别为“张炜”)
解决:
- 在Fun-ASR热词表中添加姓名别名:
张炜 → 张伟 李明 → 李铭 - 或在飞书机器人配置中,启用「姓名模糊匹配」功能(需开通飞书高级权限)
6. 总结:重新定义会议生产力的三个支点
回看这套 Fun-ASR + 飞书工作流,它的价值远超“语音转文字”本身。我们用三个月实践验证了三个不可替代的支点:
第一支点:安全即效率
当数据不必上传、模型无需联网、结果不出设备,团队就敢在会议中畅所欲言。这种心理安全感带来的表达自由度,本身就是一种隐性效率提升。
第二支点:定制即精准
热词不是锦上添花的功能,而是让ASR真正理解业务的语言。当“青鸾芯片”不再被识别为“青鸾芯片”,当“LTV/CAC”不再变成“LTV slash CAC”,纪要才真正具备可执行性。
第三支点:连接即智能
Fun-ASR 不是孤岛,而是通过CSV/Webhook与飞书深度耦合。当行动项自动创建、负责人自动@、截止日自动计算,技术才完成了从“工具”到“协作者”的进化。
这套方案没有使用一行大模型API调用,所有智能都运行在本地;它不追求炫技的实时字幕,而专注解决会议纪要中最痛的三个问题:安全、准确、可执行。如果你也在寻找一条不妥协的本地化路径,现在就是启动的最佳时机。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。