ASR语音转文字-中文免费离线模型-马育民老师

# 主流语音转文字模型

本文列出的语音转文字，都是开源、免费、可商用的

排行榜说明：

1. 按照支持 **中文好坏程度** 进行排名

2. **模型体积**：为常用标准版大小，量化精简版体积更小

3. **部署难度划分**
 - 极低：打开即用，零基础
 - 低：简单命令，几步完成
 - 中等：简单环境配置
 - 中高/极高：专业技术门槛，新手难度大

4. **代码支持**
 - ✅ 可代码调用、二次开发、编程学习、嵌入项目
 - ❌ 仅桌面软件手动使用，**无法代码开发**

简单来说：**FunASR 是“存量”之王（老牌、稳），SenseVoice 是“增量”新宠（快、新），UniASR 则是“特定场景”专家（准、精）。**

以下是它们在 2026 年 5 月这个时间节点的具体普及情况分析：

### 1. FunASR (Paraformer)：工业界的“老大哥”
**普及程度：⭐⭐⭐⭐⭐ (极高)**

*   **现状**：它是阿里最早开源的成熟 ASR 方案，经过了多年的迭代，是目前**企业级落地最广泛**的开源模型。
*   **谁在用**：
    *   **存量市场**：大量的在线教育、智能客服、会议记录系统，早在几年前就已经部署了 FunASR，由于系统稳定，目前仍在大规模运行。
    *   **开发者社区**：由于文档最全、教程最多、坑最少，它是很多开发者入门离线语音识别的首选。
*   **评价**：如果你去问一个做语音识别的工程师“哪个最稳”，他大概率会推荐 FunASR。它是目前的**行业标准**。

### 2. SenseVoice-Small：2026 年的“当红炸子鸡”
**普及程度：⭐⭐⭐⭐ (爆发式增长中)**

*   **现状**：虽然发布时间比 FunASR 晚（2024-2025年发力），但凭借**“速度极快”**和**“情绪识别”**这两个杀手锏，它在 2026 年迅速抢占了大量市场份额。
*   **谁在用**：
    *   **新兴应用**：现在的短视频自动字幕工具、直播带货助手、以及需要实时互动的 AI 伴侣应用，几乎都在从其他模型迁移到 SenseVoice。
    *   **端侧设备**：因为它体积小、跑得快，很多需要在手机或平板上离线运行的 App 首选它。
*   **评价**：它是目前的**增长冠军**。如果你现在开启一个新项目，大概率会优先考虑它。

### 3. UniASR：特定领域的“隐形冠军”
**普及程度：⭐⭐⭐ (特定圈层很火)**

*   **现状**：它的普及度不如前两者那么“大众”，但在对**“实时性+准确率”**双高要求的场景下，它是无可替代的。
*   **谁在用**：
    *   **专业场景**：比如法庭庭审记录、高端会议同传系统、语音输入法。这些场景不能容忍实时识别的错别字，必须用到 UniASR 的“流离一体化（先出字后修正）”功能。
*   **评价**：它不是“万金油”，但在**高端流式识别**这个细分领域，它的地位非常稳固。

---

### 📌 总结与建议

*   **最稳妥的选择**：**FunASR**。资料多，遇到问题容易搜到答案，适合求稳的传统项目。
*   **最潮流的选择**：**SenseVoice**。性能最强，功能最新（情绪识别），适合新项目、C端应用。
*   **最精准的选择**：**UniASR**。适合对“实时字幕准确度”有强迫症的场景。

**一句话概括**：
大家都在用 **FunASR** 跑长录音，大家都在抢着用 **SenseVoice** 做实时互动，而做专业会议系统的人在偷偷用 **UniASR**。

# 标点/分句/分段

#### 1. SenseVoice (阿里通义)
- **标点**：**自带标点预测头**。它不是识别完文字再猜标点，而是直接把标点作为识别的一部分。因此，它的逗号、句号、问号、感叹号准确率非常高，甚至能识别“（笑声）”、“（掌声）”等事件标签。
- **分句**：非常符合中文说话习惯。它能很好地识别语气的终结，不会像 Whisper 那样一句话用逗号连到底。
- **分段**：本身主要输出连续文本流。如果需要分段（比如区分说话人），通常需要结合 VAD（语音活动检测）或说话人日志模型，但它输出的文本结构清晰，很容易通过代码按句号切分。

#### 2. UniASR (阿里达摩院)
- **标点**：**上下文感知最强**。这是它的杀手锏。在“流式”模式下，它可能先打逗号；但在“离线修正”模式下，它会利用后面的话，把前面的逗号改成句号，或者反之。
- **分句**：**逻辑性最强**。比如你说：“虽然今天下雨……（停顿）……但是我还是去了。” 其他模型可能会断成两句，UniASR 能识别出这是转折关系，将其合并为一句完整的复句。
- **分段**：适合处理长难句。它不像其他模型那样机械地按时间切片，而是尽量保持语义的完整性。

#### 3. FunASR (阿里达摩院 - Paraformer)
- **标点**：**依赖“组合拳”**。FunASR 的核心模型（Paraformer）主要管文字，标点通常是由一个额外的 `CT-Transformer` 标点模型来加的。
- **分句**：非常依赖 **VAD** 模型。FunASR 的标准流程是：`VAD切分 -> 识别 -> 标点`。如果 VAD 切分得好，分句就很准。
- **分段**：在处理几小时的录音时，FunASR 的长音频处理算法（如 `Fa-decode`）能很好地管理上下文，不会出现“断片”的情况，分段逻辑稳定。

#### 4. PaddleSpeech (百度)
- **标点**：**中文语感好**。百度的语言模型在中文语料上训练深厚，对于中文特有的顿号、书名号等使用比较规范。
- **分句**：基于 VAD 和 语言模型双重判断。但在语速极快时，偶尔会出现“断句过碎”的情况（即把一句话拆成三四句）。
- **分段**：中规中矩，适合标准的会议记录，但在处理非常口语化、逻辑混乱的对话时，分段效果不如 UniASR。

#### 5. Faster-Whisper (OpenAI)
- **标点**：**最大的槽点**。Whisper 的训练目标主要是文字转录，它对标点不太敏感。
    - **现象**：它非常喜欢用**逗号**，很少用句号。经常会出现 50 个字中间全是逗号，最后才有一个句号的情况。
    - **解决**：通常需要接入第三方的标点恢复模型（如 `punctuator`）来修复。
- **分句**：**基于音频能量**。它通常是根据静音时长来切分的，而不是根据语义。这导致它经常把一句话从中间切断，或者把两句话连在一起。
- **分段**：比较生硬。如果你不写额外的代码去处理，Whisper 输出的往往是大段的、缺乏结构的文本。

---

### 🏆 最终建议

- **如果你想要“最像人写的文章”**：
    - 首选 **SenseVoice** 或 **UniASR**。它们的标点逻辑最符合中文阅读习惯，几乎不需要后期修改。

- **如果你做“会议纪要”且允许稍后修正**：
    - 选 **UniASR**。它的“修正模式”能把一开始断错的句子改对，这是其他模型做不到的。

- **如果你用 Faster-Whisper**：
    - **必须**搭配一个标点恢复工具（如 `pypunctuator` 或 `transformers-punctuation`），否则生成的文本可读性较差。

# 速度与资源占用

**阿里系的模型（SenseVoice/FunASR/UniASR）在非自回归架构上遥遥领先，速度通常是 Whisper 的 5-15 倍，且显存占用更低。**

> **注**：RTF (Real Time Factor) 越低越好。RTF=0.1 意味着处理 10 秒音频只需要 1 秒时间。

#### 1. SenseVoice-Small：轻量级闪电侠
*   **速度表现**：它是目前开源界**最快**的中文模型之一。采用**非自回归（Non-Autoregressive）**架构，意味着它可以一次性并行输出所有文字，而不是像 Whisper 那样一个字一个字往外蹦。
*   **资源占用**：模型文件仅 **280MB** 左右，加载后内存占用极低。即使在 CPU 上（如普通的家用电脑），它也能实现实时的语音转写，完全不卡顿。
*   **场景**：直播字幕、实时语音交互、低配服务器。

#### 2. FunASR (Paraformer)：工业级效率专家
*   **速度表现**：同样采用**非自回归**架构。阿里推出了 `Nano` 和 `Small` 版本，专门针对低资源环境优化。测试显示，在 RTX 3060 上，它的推理速度基本维持在 **0.9x - 1.1x RTF**（即处理速度接近或快于播放速度），甚至比 Whisper-Large 快 10 倍以上。
*   **资源占用**：显存控制非常优秀。`FunASR-Nano` 仅需 **2.4GB** 显存即可流畅运行，非常适合边缘设备或老旧服务器。
*   **场景**：批量处理大量录音文件、长音频转写。

#### 3. UniASR：为了精度牺牲了一点速度
*   **速度表现**：由于它集成了“流式”和“离线”两套机制（为了支持自动修正），它的计算量比单纯的 SenseVoice 要大一些。但在 2026 年的优化下，它依然远快于 Whisper。
*   **资源占用**：因为要同时加载流式和解码修正模块，显存占用比 SenseVoice 略高，但通常在 **6GB** 显存以内的显卡都能跑得很舒服。
*   **场景**：对延迟有要求，但对准确度要求更高的会议记录。

#### 4. PaddleSpeech：飞桨框架的“甜蜜负担”
*   **速度表现**：PaddleSpeech 的推理速度不错，但受限于 PaddlePaddle 框架的启动和调度开销，在极短音频（如 1-2 秒）的处理上，响应速度略慢于 SenseVoice。
*   **资源占用**：百度系的模型通常参数量适中，但运行环境（飞桨框架）本身会占用一定的系统内存。
*   **场景**：国产硬件适配、ASR+TTS 联动场景。

#### 5. Faster-Whisper：虽然快了，但还是重
*   **速度表现**：`faster-whisper` 利用 CTranslate2 库极大地提升了 Whisper 的速度（比原版快 4 倍），但它依然是**自回归（Autoregressive）**模型。这意味着它必须等上一个字生成完才能生成下一个字，物理上限锁死了它的速度。处理 1 小时音频，Whisper-Large 可能需要 30 分钟以上，而 SenseVoice 可能只需要 5 分钟。
*   **资源占用**：Whisper-Large-v3 模型超过 3GB，运行时显存占用轻松突破 **10GB**。如果你的显卡只有 4GB 或 6GB，只能跑 `Tiny` 或 `Base` 版本，准确率会大打折扣。
*   **场景**：显存充足（如 3090/4090），且必须处理多语言混合的场景。

---

### 💡 选型建议（基于硬件）

*   **显卡是 GTX 1060 / 1660 / 3050 (4G-6G 显存)**：
    *   **首选**：**SenseVoice-Small** 或 **FunASR-Nano**。
    *   **理由**：跑得动，跑得快，不爆显存。

*   **显卡是 RTX 3060 / 4060 (8G-12G 显存)**：
    *   **首选**：**FunASR-Small** 或 **UniASR**。
    *   **理由**：可以在保证速度的同时，享受更高的识别精度。

*   **显卡是 RTX 3090 / 4090 (24G 显存)**：
    *   **首选**：**Faster-Whisper (Large)** 或 **FunASR (Large)**。
    *   **理由**：资源随便用，Whisper 的多语言能力能发挥出来。

*   **完全没有显卡，只用 CPU**：
    *   **唯一推荐**：**SenseVoice-Small (ONNX版)** 或 **Sherpa-ONNX**。
    *   **理由**：只有非自回归模型在 CPU 上才能做到实时转写，Whisper 在 CPU 上会慢到让你怀疑人生。

原文出处：http://malaoshi.top/show_1GW3EtTNUnJv.html