大模型分类:编码器 Encoder、解码器 Decoder、编码器-解码器 Encoder-Decoder 作者:马育民 • 2026-05-21 17:22 • 阅读:10000 # 本质区别 基于**Transformer**结构拆分,按**信息流向、预训练任务、适用场景**划分三类。 # 纯编码器 Encoder-only ### 结构 只用**多头自注意力+前馈网络**,**双向注意力**(上下文全可见) - 输入:整段文本 - 注意力:**左右双向都能看到** - 无序列生成逻辑,最后取`CLS`池化输出 ### 预训练任务 **MLM 掩码语言建模**:随机遮住句子单词,预测被遮词 ### 代表模型 BERT、RoBERTa、ALBERT、ERNIE ### 能力特点 1. **强理解、弱生成** 2. 擅长**文本理解、语义分类、特征提取** 3. 不能逐字续写生成文本 ### 作用 做:向量化、检索、匹配、分类、打分 不做:聊天、续写、写作 ### 适用场景 - 情感分析、文本分类 - 语义相似度、意图识别 - 关键词抽取、实体识别、问答检索 - 向量 embedding 文本向量化(即:**向量模型**) ### 优缺点 ✅ 语义理解极强、训练快、推理轻 ❌ 无法长文本续写、不适合对话/写作 --- # 纯解码器 Decoder-only 当前主流大模型 ### 结构 只用**解码器层**,**单向因果掩码注意力** - 只能**看左边历史文本**,看不到未来字 - 自回归逐一生成:`词1→词2→词3…` ### 预训练任务 **LM 自回归语言建模**:给定上文,预测下一个词 ### 代表模型 GPT 全系列、LLaMA、Qwen、Mistral、DeepSeek、通义千问、文心一言通用版 ### 能力特点 1. **超强文本生成,理解偏弱** 2. 天生适合**连续续写、对话、创作** 3. 上下文越长效果越强 ### 适用场景 - 聊天对话、智能客服 - 文案写作、代码生成 - 摘要、扩写、故事创作 - 指令跟随、Agent 智能体 ### 优缺点 ✅ 生成流畅、逻辑连贯、通用全能 ❌ 长文本推理慢、容易幻觉、理解精度弱于BERT --- # 编码器-解码器 Encoder-Decoder ### 结构 **双向Encoder + 单向Decoder 组合** - 编码器:读懂**源输入**(双向理解) - 解码器:基于编码器语义,**逐词生成目标输出** - 中间加**交叉注意力**:Decoder 读取 Encoder 全局语义 ### 预训练任务 **Seq2Seq 序列到序列**:源序列 → 目标序列 ### 代表模型 T5、BART、PEGASUS、谷歌翻译、旧版讯飞翻译 ### 能力特点 **专门做「文本转换」**,输入输出格式不一样 ### 适用场景 - 机器翻译(中英互译) - 文本摘要、标题生成 - 句式改写、润色、问答生成 - 表格转文本、指令转脚本 ### 优缺点 ✅ 序列转换最强、翻译/摘要效果顶级 ❌ 通用对话不如Decoder-only,结构最重、推理最慢 --- # 对比 | 架构 | 注意力 | 核心任务 | 核心优势 | 主流用途 | |------|--------|----------|----------|----------| | Encoder-only | 双向全可见 | MLM掩码预测 | 语义理解 | 分类、检索、Embedding | | Decoder-only | 单向因果 | 下一词预测 | 自由生成 | 聊天、写作、代码、通用大模型 | | Encoder-Decoder | 双向+单向交叉 | Seq2Seq转换 | 序列映射 | 翻译、摘要、改写 | --- # 总结 1. **Encoder**:读得懂文章(理解派,向量模型) 2. **Decoder**:写得出文章(创作派,现常用模型) 3. **编解码**:把A文本改成B文本(转换派) ### 行业现状 - 现在**商用大模型95%都是 Decoder-only**(GPT/LLaMA/Qwen等) - Encoder 只用来做**检索、分类、向量库** - Encoder-Decoder 多用于**专业翻译、摘要垂类** 原文出处:http://malaoshi.top/show_1GW3LtPNIgKr.html