大模型原理:预训练目标-因果语言建模(CLM) 作者:马育民 • 2026-01-07 16:53 • 阅读:10005 # 介绍 因果语言建模(Causal Language Modeling,简称 **CLM**)是一种让模型 **根据前文预测下一个词** 的训练方式,是所有 **生成式** 大模型(如 GPT、LLaMA、通义千问等)的基础训练任务。 大语言模型通过** 预测文本序列的下一个单词** 来进行预训练: [](https://www.malaoshi.top/upload/0/0/1GW2YBeXnqVa.png) 给定一个文本样本,我们从中 **提取 子样本**,作为 **输入块** 提供给大语言模型。 在训练过程中,模型的任务是 **预测 输入块之后的下一个词**,我们会屏蔽 **目标词之后的所有单词**。 **提示:**在大语言模型处理文本之前,文本会经过分词处理 # 特点 ### 1. 单向建模(只能看前文) CLM 强制模型在预测下一个词时 **只能使用前面的内容**,不能看到后面的词。 模型只能看到过去,不能看到未来,因此叫 “**因果**”。 通过在 Transformer **解码器** 中使用 **因果掩码(Causal Mask)**实现,确保注意力机制不会“偷看”未来的信息。 ### 2. 自回归生成 CLM 的 **训练方式** 和 **模型生成文本** 时的方式完全一致: **训练时:** 根据 x₁, x₂, ..., xₖ → 预测 xₖ₊₁ **生成时:** 先输入 x₁, x₂, ..., xₖ 模型生成 xₖ₊₁ 再把 xₖ₊₁ 加入输入,继续生成 xₖ₊₂ …… 如此循环,直到生成完整文本。 这种“训练=推理”的对齐,让 CLM 模型天然擅长 **连续文本生成**。 ### 3. 适合生成式任务 CLM 让模型学习语言的: - 语法结构 - 语义逻辑 - 上下文连贯性 - 长程依赖关系 因此,CLM 模型非常适合: - 聊天机器人 - 文章写作 - 代码生成 - 文本摘要 - 对话式 AI # 优点 ### 1. 天然支持生成 无需额外任务头,模型就能直接生成文本。 ### 2. 上下文一致性强 模型在生成每一个词时都依赖前文,因此能保持流畅、连贯的表达。 ### 3. 支持零样本/少样本学习 只需通过提示词(Prompt)即可让模型完成任务,无需重新训练。 例如: “写一段关于大模型的科普介绍。” 模型就能直接生成内容。 # 缺点 ### 1. 无法利用后文信息 在理解任务中(如情感分析、NER),CLM 不如 MLM 模型准确,因为它不能同时看前后文。 ### 2. 生成可能出现事实性错误 CLM 只学习“语言规律”,不保证内容真实。 ### 3. 训练成本高 CLM 需要逐词预测,训练速度比 MLM 慢。 # 应用场景 - 对话系统(ChatGPT、通义千问) - 文本生成(文章、故事、诗歌) - 代码生成(GitHub Copilot) - 自动写作 - 机器翻译(通过提示词方式) - 文本摘要 原文出处:http://malaoshi.top/show_1GW2YBs0zklJ.html