Qwen3-ASR-0.6B Streamlit界面定制教程:修改主题色、添加公司LOGO、导出PDF识别报告
1. 项目背景与价值
Qwen3-ASR-0.6B是阿里云通义千问团队推出的轻量级语音识别模型,专为本地部署场景优化。这个6亿参数的模型在保持高识别精度的同时,显著降低了硬件资源需求,特别适合需要隐私保护的语音转写场景。
通过Streamlit框架,我们可以快速构建一个用户友好的Web界面,但默认界面往往缺乏个性化。本教程将手把手教你如何:
- 修改界面主题色,匹配企业VI系统
- 添加公司LOGO,提升品牌识别度
- 实现PDF报告导出功能,方便结果存档
这些定制不仅能提升用户体验,还能让工具更好地融入企业工作流程。
2. 环境准备与基础代码
2.1 安装必要依赖
确保已安装以下Python包:
pip install streamlit qwen-asr PyPDF2 reportlab2.2 基础识别代码框架
以下是基本的语音识别界面代码(app.py):
import streamlit as st from qwen_asr import QwenASR # 初始化模型 asr = QwenASR(model_size="0.6B", device="cuda") # 基础界面 st.title("语音识别工具") audio_file = st.file_uploader("上传音频文件", type=["wav","mp3","m4a","ogg"]) if audio_file: st.audio(audio_file.read()) if st.button("开始识别"): text = asr.transcribe(audio_file) st.text_area("识别结果", text)3. 界面主题定制
3.1 修改主题颜色
Streamlit支持通过配置文件自定义主题。在项目根目录创建.streamlit/config.toml文件:
[theme] primaryColor = "#1E90FF" # 主色调 backgroundColor = "#FFFFFF" # 背景色 secondaryBackgroundColor = "#F0F2F6" # 次级背景 textColor = "#262730" # 文字颜色 font = "sans serif" # 字体常用配色方案参考:
| 用途 | 推荐颜色 | 适用场景 |
|---|---|---|
| 科技感 | #1E90FF | 企业级应用 |
| 医疗健康 | #2ECC71 | 医疗转录场景 |
| 教育 | #9B59B6 | 在线教育平台 |
3.2 添加公司LOGO
在侧边栏添加LOGO的两种方法:
方法一:直接嵌入图片
from PIL import Image logo = Image.open("company_logo.png") st.sidebar.image(logo, width=200)方法二:使用HTML注入(更灵活)
st.sidebar.markdown( """ <div style="text-align:center"> <img src="https://example.com/logo.png" width="200"> </div> """, unsafe_allow_html=True )4. PDF报告生成功能
4.1 安装PDF库
pip install PyPDF2 reportlab4.2 实现PDF导出
在识别结果下方添加导出按钮:
from reportlab.lib.pagesizes import letter from reportlab.pdfgen import canvas import io if 'text' in locals(): if st.button("导出PDF报告"): buffer = io.BytesIO() c = canvas.Canvas(buffer, pagesize=letter) # 添加标题 c.setFont("Helvetica-Bold", 16) c.drawString(100, 750, "语音识别报告") # 添加内容 c.setFont("Helvetica", 12) text_lines = text.split('\n') y_position = 700 for line in text_lines: c.drawString(100, y_position, line) y_position -= 20 c.save() st.download_button( label="下载PDF", data=buffer.getvalue(), file_name="语音识别报告.pdf", mime="application/pdf" )4.3 高级报告模板
对于更专业的报告,可以预置模板:
def generate_pdf(text, audio_info): buffer = io.BytesIO() c = canvas.Canvas(buffer, pagesize=letter) # 页眉 c.drawImage("header.png", 50, 750, width=500, height=50) # 报告信息 c.setFont("Helvetica-Bold", 14) c.drawString(100, 700, f"音频文件: {audio_info['name']}") c.drawString(100, 675, f"识别时间: {audio_info['time']}") # 识别内容 c.setFont("Helvetica", 12) text_object = c.beginText(100, 650) for line in text.split('\n'): text_object.textLine(line) c.drawText(text_object) # 页脚 c.setFont("Helvetica-Oblique", 8) c.drawString(100, 50, "本报告由Qwen3-ASR生成") c.save() return buffer.getvalue()5. 完整定制示例
结合所有功能的完整代码示例:
import streamlit as st from qwen_asr import QwenASR from PIL import Image from reportlab.lib.pagesizes import letter from reportlab.pdfgen import canvas import io import datetime # 初始化 asr = QwenASR(model_size="0.6B", device="cuda") logo = Image.open("logo.png") # 界面布局 st.set_page_config(layout="wide") st.sidebar.image(logo, width=200) st.sidebar.markdown("## 识别参数") confidence = st.sidebar.slider("置信度阈值", 0.7, 1.0, 0.9) # 主界面 st.title("企业级语音识别系统") audio_file = st.file_uploader("上传音频文件", type=["wav","mp3","m4a","ogg"]) if audio_file: st.audio(audio_file.read()) if st.button("开始识别"): with st.spinner("识别中..."): text = asr.transcribe(audio_file, min_confidence=confidence) st.text_area("识别结果", text, height=300) # PDF导出 audio_info = { "name": audio_file.name, "time": datetime.datetime.now().strftime("%Y-%m-%d %H:%M") } pdf_data = generate_pdf(text, audio_info) st.download_button( label="导出完整报告", data=pdf_data, file_name=f"{audio_file.name}_report.pdf", mime="application/pdf" )6. 部署与优化建议
6.1 生产环境部署
对于企业级部署,建议:
- 使用Docker容器化部署
- 配置Nginx反向代理
- 启用HTTPS加密
- 添加用户认证功能
6.2 性能优化技巧
- 启用模型缓存:避免每次请求重新加载模型
- 使用
st.cache_data缓存识别结果 - 对长音频实现分段识别
- 考虑使用Redis缓存常用音频的识别结果
6.3 扩展功能思路
- 添加多用户支持
- 实现批量音频处理
- 集成到企业微信/钉钉等办公平台
- 开发API接口供其他系统调用
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。