语音转文字ASR-FunASR 主流模型汇总 作者:马育民 • 2026-05-04 18:50 • 阅读:10000 # 前置说明 硬件基准:**CPU 本地推理、无独显**,显存/内存为最低可运行门槛; CER 越低 = 识别越准,通用安静场景实测值。 # Paraformer 系列 FunASR 原生主打中文工业ASR ### 1. paraformer-zh(标准版) - **介绍**:FunASR 旗舰通用中文非自回归ASR模型,工业级训练数据 6万小时。 - **特点**:精度/速度平衡最好,支持热词、时间戳、长音频切分,配套VAD/标点完美适配。 - **使用场景**:会议录音转写、视频字幕、办公录音、企业私有化部署、客服话术质检。 - **资源占用**:内存≥6GB,无独显CPU可流畅跑;GPU 需 2G 显存。 - **中文准确度**:通用场景 **CER≈2.2%**,远场嘈杂 **CER≈3.5%**。 ### 2. paraformer-zh-large(高精度版) - **介绍**:Paraformer 超大参数量增强版,针对远场、嘈杂环境专项优化。 - **特点**:抗噪极强、方言口音容错高,适合高难度音频;推理略慢于标准版。 - **使用场景**:大型会场远场录音、嘈杂环境、方言口音重、专业音频质检。 - **资源占用**:内存≥8GB,GPU 建议 4G+ 显存。 - **中文准确度**:通用 **CER≈1.8%**,高噪声 **CER≈2.8%**。 ### 3. paraformer-zh-nano(轻量版) - **介绍**:极致轻量化裁剪模型,专为个人PC、低配设备设计。 - **特点**:体积小、速度快、资源占用极低,精度小幅下降,日常使用无感知。 - **使用场景**:个人笔记本离线转写、低配电脑、边缘设备、日常自用。 - **资源占用**:内存≥4GB,纯CPU无压力,无需独显。 - **中文准确度**:通用 **CER≈2.8%**。 ### 4. paraformer-zh-tiny(超轻量极简版) - **介绍**:Paraformer 最小阉割版,极限压缩参数量。 - **特点**:资源占用极低,速度最快;适合极致低资源场景。 - **使用场景**:老旧电脑、嵌入式设备、单板机、低配置服务器批量转写。 - **资源占用**:内存≥2GB,低配CPU也能跑。 - **中文准确度**:通用 **CER≈3.5%**。 ### 5. paraformer-zh-streaming(流式实时版) - **介绍**:专为实时语音流式识别定制模型,低时延双路解码。 - **特点**:端到端流式输出,延迟<200ms,边说边转,结尾高精度修正。 - **使用场景**:实时会议听写、直播实时字幕、麦克风实时录音转写。 - **资源占用**:同 nano 级别,内存≥4GB。 - **中文准确度**:通用 **CER≈2.5%**。 ### 6. 方言系列模型 `paraformer-cantonese` / `paraformer-sichuan` / `paraformer-shanghai` - **介绍**:FunASR 官方离线方言专属模型。 - **特点**:纯离线、不用联网,方言识别远强于通用模型。 - **使用场景**:粤语、四川话、上海话本地语音转写。 - **资源占用**:同标准版,内存≥6GB。 - **中文/方言准确度**:方言场景 **CER≈3.0%~4.0%**。 --- # SenseVoice 系列 FunAudioLLM 多任务音频大模型 ### 1. sensevoice-small - **介绍**:轻量多任务大模型,ASR+语种识别+情感识别+音频事件检测 四合一。 - **特点**:支持中、粤、英、日、韩 5 种语言;推理速度极快,比Whisper快十几倍;多任务一体无需拼装模型。 - **使用场景**:多语言音频转写、语音情感分析、短视频语音、实时边缘设备、双语会议。 - **资源占用**:内存≥4GB,纯CPU流畅运行,无需独显。 - **中文准确度**:通用场景 **CER≈3.0%~3.8%**。 ### 2. sensevoice-large - **介绍**:超大参数量多语言模型,支持全球50+语种。 - **特点**:多语言能力拉满,小语种、冷门方言表现强;推理速度较慢,资源要求高。 - **使用场景**:跨国会议、小语种音频、多语言批量资料转写。 - **资源占用**:内存≥8GB,GPU 建议 4G+ 显存。 - **中文准确度**:通用 **CER≈2.5%~3.2%**。 --- # 三、配套辅助模型 FunASR 必搭配使用 ### 1. fsmn-vad - 语音端点检测:自动分割长音频、过滤静音和噪声,所有ASR模型标配。 - 资源占用:极低,几乎无额外内存开销。 ### 2. ct-punc / ct-punc-large - 标点恢复:自动加逗号、句号、问号;large 版标点更精准。 - 资源占用:极小,随ASR模型一起加载。 --- # 模型横向总表 | 模型名称 | 核心定位 | 内存最低要求 | 中文CER | 最佳适用场景 | |--------|----------|--------------|---------|--------------| | paraformer-zh | 工业通用旗舰 | 6GB | 2.2% | 企业私有化、会议、字幕、质检 | | paraformer-zh-large | 高精度抗噪 | 8GB | 1.8% | 远场会场、高噪音、口音重 | | paraformer-zh-nano | 个人轻量首选 | 4GB | 2.8% | 笔记本离线、个人自用 | | paraformer-zh-tiny | 极致低资源 | 2GB | 3.5% | 老旧机器、嵌入式 | | paraformer-zh-streaming | 实时流式 | 4GB | 2.5% | 实时听写、直播字幕 | | sensevoice-small | 多任务5语言 | 4GB | 3.0%~3.8% | 中英日韩粤、情感分析 | | sensevoice-large | 50+语种大模型 | 8GB | 2.5%~3.2% | 跨国多语种、小语种转写 | # 选型 1. **只做中文专业识别、要准要稳** → `paraformer-zh` 2. **嘈杂远场、追求最高精度** → `paraformer-zh-large` 3. **个人笔记本、无独显** → `paraformer-zh-nano` 4. **要实时边说边转** → `paraformer-zh-streaming` 5. **中英日韩粤+情感分析一体** → `sensevoice-small` 6. **小语种、全球多语言** → `sensevoice-large` 原文出处:http://malaoshi.top/show_1GW3FbJyoaJZ.html