大模型原理：预训练目标-因果语言建模（CLM）掩码语言建模（MLM）、下一句预测（NSP）-马育民老师

# 介绍

预训练阶段的核心是**自监督学习**，[**输入-目标对**](https://www.malaoshi.top/show_1GW2Y97fMBL5.html "输入-目标对") 无需人工标注，而是通过对原始文本进行**数据变换**，让目标从输入本身生成。不同预训练任务的输入-目标对设计差异较大，以下按主流预训练范式（因果语言建模、掩码语言建模、对比学习）进行介绍

# 因果语言建模（CLM）

自回归模型核心范式
**适用模型**：GPT系列、LLaMA系列、PaLM等自回归大模型
**核心任务**：模型根据前文文本，逐词预测下一个token，目标是完整的后续文本序列。
**核心特点**：输入是文本前缀，目标是文本后缀，天然适配生成式任务。

### 1.  基础格式设计
| 组成部分 | 具体内容 | 格式要求 |
|----------|----------|----------|
| **输入（Input）** | 原始文本的前缀子序列（截断长度 ≤ 模型上下文窗口） | 无特殊token，直接拼接文本 |
| **目标（Target）** | 原始文本中，输入前缀之后的后缀子序列 | 与输入严格衔接，无重复内容 |

### 2.  典型示例
**原始文本**：
`人工智能是一门旨在使机器能够模拟人类智能行为的技术科学，它涵盖了机器学习、自然语言处理、计算机视觉等多个领域。`

| 序号 | 输入（Input） | 目标（Target） | 截断规则 |
|------|---------------|----------------|----------|
| 1 | 人工智能是一门旨在使机器能够 | 模拟人类智能行为的技术科学，它涵盖了机器学习、自然语言处理、计算机视觉等多个领域。 | 按token数截断前缀（如前10个token） |
| 2 | 人工智能是一门旨在使机器能够模拟人类智能行为的技术科学，它涵盖了 | 机器学习、自然语言处理、计算机视觉等多个领域。 | 更长前缀，更短目标 |

### 3.  批量训练格式（JSONL）
```jsonl
{"input": "人工智能是一门旨在使机器能够", "target": "模拟人类智能行为的技术科学，它涵盖了机器学习、自然语言处理、计算机视觉等多个领域。"}
{"input": "机器学习的核心任务是", "target": "从数据中学习规律，并利用规律对新数据进行预测或决策。"}
```

# 掩码语言建模（MLM）

双向编码器核心范式

**适用模型**：BERT系列、ERNIE系列、RoBERTa等双向语义理解模型
**核心任务**：随机掩码输入文本中的部分token，模型预测被掩码位置的原始token。
**核心特点**：输入是带掩码标记的文本，目标是掩码位置的真实token，适配语义理解任务。

### 1.  基础格式设计
| 组成部分 | 具体内容 | 格式要求 |
|----------|----------|----------|
| **输入（Input）** | 原始文本中随机替换15%的token为特殊标记 `[MASK]`，或随机替换为其他token/保持原token | 必须包含 `[CLS]`（句首）和 `[SEP]`（句尾）特殊token |
| **目标（Target）** | 仅保留被掩码位置的真实token，非掩码位置标记为 `-`（无预测任务） | 长度与输入完全一致，非掩码位置用占位符填充 |

### 2.  典型示例
**原始文本**：
`机器学习是人工智能的核心分支`

| 掩码策略 | 输入（Input） | 目标（Target） | 说明 |
|----------|---------------|----------------|------|
| 基础掩码 | `[CLS] 机器 [MASK] 习 是 人工 智能 的 核心 分支 [SEP]` | `- - 学 - - - - - - - -` | 单个token掩码 |
| 连续掩码 | `[CLS] [MASK] [MASK] 是 人工 智能 的 核心 分支 [SEP]` | `- 机器 学习 - - - - - - - -` | 连续多个token掩码（适配短语预测） |

### 3.  批量训练格式（JSONL）
```jsonl
{"input": "[CLS] 自然 [MASK] 处理 是 人工智能 的 重要 方向 [SEP]", "target": "- - 语言 - - - - - - - -"}
{"input": "[CLS] [MASK] 器 视觉 旨在 让 计算机 看懂 图像 [SEP]", "target": "- 机 - - - - - - - - -"}
```

# 句子顺序预测（NSP）
辅助预训练任务
**适用模型**：BERT系列（增强句间关系理解）
**核心任务**：判断两个句子是否为连续上下文，输入是两个句子的拼接，目标是二元标签。
**核心特点**：输入是句对，目标是逻辑关系标签，提升模型的篇章理解能力。

### 1.  基础格式设计
| 组成部分 | 具体内容 | 格式要求 |
|----------|----------|----------|
| **输入（Input）** | `[CLS] 句子A [SEP] 句子B [SEP]`，句子A和B随机为连续上下文（正例）或无关句子（负例） | 必须包含 `[CLS]` `[SEP]` 分隔token |
| **目标（Target）** | 正例标签 `1`，负例标签 `0` | 仅二元标签，无文本内容 |

### 2.  典型示例
| 样本类型 | 输入（Input） | 目标（Target） |
|----------|---------------|----------------|
| 正例 | `[CLS] 人工智能发展迅速 [SEP] 机器学习是其核心技术 [SEP]` | `1` |
| 负例 | `[CLS] 人工智能发展迅速 [SEP] 今天的天气非常好 [SEP]` | `0` |

原文出处：http://malaoshi.top/show_1GW2Y9DWUcfJ.html