语音转文字ASR-FunASR 主流模型汇总-马育民老师

# 前置说明

硬件基准：**CPU 本地推理、无独显**，显存/内存为最低可运行门槛；
CER 越低 = 识别越准，通用安静场景实测值。

# Paraformer 系列

FunASR 原生主打中文工业ASR

### 1. paraformer-zh（标准版）
- **介绍**：FunASR 旗舰通用中文非自回归ASR模型，工业级训练数据 6万小时。
- **特点**：精度/速度平衡最好，支持热词、时间戳、长音频切分，配套VAD/标点完美适配。
- **使用场景**：会议录音转写、视频字幕、办公录音、企业私有化部署、客服话术质检。
- **资源占用**：内存≥6GB，无独显CPU可流畅跑；GPU 需 2G 显存。
- **中文准确度**：通用场景 **CER≈2.2%**，远场嘈杂 **CER≈3.5%**。

### 2. paraformer-zh-large（高精度版）
- **介绍**：Paraformer 超大参数量增强版，针对远场、嘈杂环境专项优化。
- **特点**：抗噪极强、方言口音容错高，适合高难度音频；推理略慢于标准版。
- **使用场景**：大型会场远场录音、嘈杂环境、方言口音重、专业音频质检。
- **资源占用**：内存≥8GB，GPU 建议 4G+ 显存。
- **中文准确度**：通用 **CER≈1.8%**，高噪声 **CER≈2.8%**。

### 3. paraformer-zh-nano（轻量版）
- **介绍**：极致轻量化裁剪模型，专为个人PC、低配设备设计。
- **特点**：体积小、速度快、资源占用极低，精度小幅下降，日常使用无感知。
- **使用场景**：个人笔记本离线转写、低配电脑、边缘设备、日常自用。
- **资源占用**：内存≥4GB，纯CPU无压力，无需独显。
- **中文准确度**：通用 **CER≈2.8%**。

### 4. paraformer-zh-tiny（超轻量极简版）
- **介绍**：Paraformer 最小阉割版，极限压缩参数量。
- **特点**：资源占用极低，速度最快；适合极致低资源场景。
- **使用场景**：老旧电脑、嵌入式设备、单板机、低配置服务器批量转写。
- **资源占用**：内存≥2GB，低配CPU也能跑。
- **中文准确度**：通用 **CER≈3.5%**。

### 5. paraformer-zh-streaming（流式实时版）
- **介绍**：专为实时语音流式识别定制模型，低时延双路解码。
- **特点**：端到端流式输出，延迟＜200ms，边说边转，结尾高精度修正。
- **使用场景**：实时会议听写、直播实时字幕、麦克风实时录音转写。
- **资源占用**：同 nano 级别，内存≥4GB。
- **中文准确度**：通用 **CER≈2.5%**。

### 6. 方言系列模型
`paraformer-cantonese` / `paraformer-sichuan` / `paraformer-shanghai`
- **介绍**：FunASR 官方离线方言专属模型。
- **特点**：纯离线、不用联网，方言识别远强于通用模型。
- **使用场景**：粤语、四川话、上海话本地语音转写。
- **资源占用**：同标准版，内存≥6GB。
- **中文/方言准确度**：方言场景 **CER≈3.0%～4.0%**。

---

# SenseVoice 系列

FunAudioLLM 多任务音频大模型

### 1. sensevoice-small
- **介绍**：轻量多任务大模型，ASR+语种识别+情感识别+音频事件检测 四合一。
- **特点**：支持中、粤、英、日、韩 5 种语言；推理速度极快，比Whisper快十几倍；多任务一体无需拼装模型。
- **使用场景**：多语言音频转写、语音情感分析、短视频语音、实时边缘设备、双语会议。
- **资源占用**：内存≥4GB，纯CPU流畅运行，无需独显。
- **中文准确度**：通用场景 **CER≈3.0%～3.8%**。

### 2. sensevoice-large
- **介绍**：超大参数量多语言模型，支持全球50+语种。
- **特点**：多语言能力拉满，小语种、冷门方言表现强；推理速度较慢，资源要求高。
- **使用场景**：跨国会议、小语种音频、多语言批量资料转写。
- **资源占用**：内存≥8GB，GPU 建议 4G+ 显存。
- **中文准确度**：通用 **CER≈2.5%～3.2%**。

---

# 三、配套辅助模型

FunASR 必搭配使用

### 1. fsmn-vad
- 语音端点检测：自动分割长音频、过滤静音和噪声，所有ASR模型标配。
- 资源占用：极低，几乎无额外内存开销。

### 2. ct-punc / ct-punc-large
- 标点恢复：自动加逗号、句号、问号；large 版标点更精准。
- 资源占用：极小，随ASR模型一起加载。

---

# 模型横向总表

| 模型名称 | 核心定位 | 内存最低要求 | 中文CER | 最佳适用场景 |
|--------|----------|--------------|---------|--------------|
| paraformer-zh | 工业通用旗舰 | 6GB | 2.2% | 企业私有化、会议、字幕、质检 |
| paraformer-zh-large | 高精度抗噪 | 8GB | 1.8% | 远场会场、高噪音、口音重 |
| paraformer-zh-nano | 个人轻量首选 | 4GB | 2.8% | 笔记本离线、个人自用 |
| paraformer-zh-tiny | 极致低资源 | 2GB | 3.5% | 老旧机器、嵌入式 |
| paraformer-zh-streaming | 实时流式 | 4GB | 2.5% | 实时听写、直播字幕 |
| sensevoice-small | 多任务5语言 | 4GB | 3.0%~3.8% | 中英日韩粤、情感分析 |
| sensevoice-large | 50+语种大模型 | 8GB | 2.5%~3.2% | 跨国多语种、小语种转写 |

# 选型

1. **只做中文专业识别、要准要稳** → `paraformer-zh`
2. **嘈杂远场、追求最高精度** → `paraformer-zh-large`
3. **个人笔记本、无独显** → `paraformer-zh-nano`
4. **要实时边说边转** → `paraformer-zh-streaming`
5. **中英日韩粤+情感分析一体** → `sensevoice-small`
6. **小语种、全球多语言** → `sensevoice-large`

原文出处：http://malaoshi.top/show_1GW3FbJyoaJZ.html