大模型原理：预训练目标-因果语言建模（CLM）-马育民老师

# 介绍

因果语言建模（Causal Language Modeling，简称 **CLM**）是一种让模型 **根据前文预测下一个词** 的训练方式，是所有 **生成式** 大模型（如 GPT、LLaMA、通义千问等）的基础训练任务。

大语言模型通过** 预测文本序列的下一个单词** 来进行预训练：

[![](https://www.malaoshi.top/upload/0/0/1GW2YBeXnqVa.png)](https://www.malaoshi.top/upload/0/0/1GW2YBeXnqVa.png)

给定一个文本样本，我们从中 **提取 子样本**，作为 **输入块** 提供给大语言模型。
在训练过程中，模型的任务是 **预测 输入块之后的下一个词**，我们会屏蔽 **目标词之后的所有单词**。

**提示：**在大语言模型处理文本之前，文本会经过分词处理

# 特点

### 1. 单向建模（只能看前文）

CLM 强制模型在预测下一个词时 **只能使用前面的内容**，不能看到后面的词。

模型只能看到过去，不能看到未来，因此叫 “**因果**”。

通过在 Transformer **解码器** 中使用 **因果掩码（Causal Mask）**实现，确保注意力机制不会“偷看”未来的信息。

### 2. 自回归生成

CLM 的 **训练方式** 和 **模型生成文本** 时的方式完全一致：

**训练时：**  
根据 x₁, x₂, ..., xₖ → 预测 xₖ₊₁

**生成时：**  
先输入 x₁, x₂, ..., xₖ  
模型生成 xₖ₊₁  
再把 xₖ₊₁ 加入输入，继续生成 xₖ₊₂  
……  
如此循环，直到生成完整文本。

这种“训练=推理”的对齐，让 CLM 模型天然擅长 **连续文本生成**。

### 3. 适合生成式任务

CLM 让模型学习语言的：

- 语法结构
- 语义逻辑
- 上下文连贯性
- 长程依赖关系

因此，CLM 模型非常适合：

- 聊天机器人
- 文章写作
- 代码生成
- 文本摘要
- 对话式 AI

# 优点

### 1. 天然支持生成
无需额外任务头，模型就能直接生成文本。

### 2. 上下文一致性强
模型在生成每一个词时都依赖前文，因此能保持流畅、连贯的表达。

### 3. 支持零样本/少样本学习
只需通过提示词（Prompt）即可让模型完成任务，无需重新训练。

例如：  
“写一段关于大模型的科普介绍。”  
模型就能直接生成内容。

# 缺点

### 1. 无法利用后文信息
在理解任务中（如情感分析、NER），CLM 不如 MLM 模型准确，因为它不能同时看前后文。

### 2. 生成可能出现事实性错误
CLM 只学习“语言规律”，不保证内容真实。

### 3. 训练成本高
CLM 需要逐词预测，训练速度比 MLM 慢。

# 应用场景

- 对话系统（ChatGPT、通义千问）
- 文本生成（文章、故事、诗歌）
- 代码生成（GitHub Copilot）
- 自动写作
- 机器翻译（通过提示词方式）
- 文本摘要