大模型原理:预训练目标-因果语言建模(CLM)掩码语言建模(MLM)、下一句预测(NSP) 作者:马育民 • 2026-01-07 17:59 • 阅读:10006 # 介绍 预训练阶段的核心是**自监督学习**,[**输入-目标对**](https://www.malaoshi.top/show_1GW2Y97fMBL5.html "输入-目标对") 无需人工标注,而是通过对原始文本进行**数据变换**,让目标从输入本身生成。不同预训练任务的输入-目标对设计差异较大,以下按主流预训练范式(因果语言建模、掩码语言建模、对比学习)进行介绍 # 因果语言建模(CLM) 自回归模型核心范式 **适用模型**:GPT系列、LLaMA系列、PaLM等自回归大模型 **核心任务**:模型根据前文文本,逐词预测下一个token,目标是完整的后续文本序列。 **核心特点**:输入是文本前缀,目标是文本后缀,天然适配生成式任务。 ### 1. 基础格式设计 | 组成部分 | 具体内容 | 格式要求 | |----------|----------|----------| | **输入(Input)** | 原始文本的前缀子序列(截断长度 ≤ 模型上下文窗口) | 无特殊token,直接拼接文本 | | **目标(Target)** | 原始文本中,输入前缀之后的后缀子序列 | 与输入严格衔接,无重复内容 | ### 2. 典型示例 **原始文本**: `人工智能是一门旨在使机器能够模拟人类智能行为的技术科学,它涵盖了机器学习、自然语言处理、计算机视觉等多个领域。` | 序号 | 输入(Input) | 目标(Target) | 截断规则 | |------|---------------|----------------|----------| | 1 | 人工智能是一门旨在使机器能够 | 模拟人类智能行为的技术科学,它涵盖了机器学习、自然语言处理、计算机视觉等多个领域。 | 按token数截断前缀(如前10个token) | | 2 | 人工智能是一门旨在使机器能够模拟人类智能行为的技术科学,它涵盖了 | 机器学习、自然语言处理、计算机视觉等多个领域。 | 更长前缀,更短目标 | ### 3. 批量训练格式(JSONL) ```jsonl {"input": "人工智能是一门旨在使机器能够", "target": "模拟人类智能行为的技术科学,它涵盖了机器学习、自然语言处理、计算机视觉等多个领域。"} {"input": "机器学习的核心任务是", "target": "从数据中学习规律,并利用规律对新数据进行预测或决策。"} ``` # 掩码语言建模(MLM) 双向编码器核心范式 **适用模型**:BERT系列、ERNIE系列、RoBERTa等双向语义理解模型 **核心任务**:随机掩码输入文本中的部分token,模型预测被掩码位置的原始token。 **核心特点**:输入是带掩码标记的文本,目标是掩码位置的真实token,适配语义理解任务。 ### 1. 基础格式设计 | 组成部分 | 具体内容 | 格式要求 | |----------|----------|----------| | **输入(Input)** | 原始文本中随机替换15%的token为特殊标记 `[MASK]`,或随机替换为其他token/保持原token | 必须包含 `[CLS]`(句首)和 `[SEP]`(句尾)特殊token | | **目标(Target)** | 仅保留被掩码位置的真实token,非掩码位置标记为 `-`(无预测任务) | 长度与输入完全一致,非掩码位置用占位符填充 | ### 2. 典型示例 **原始文本**: `机器学习是人工智能的核心分支` | 掩码策略 | 输入(Input) | 目标(Target) | 说明 | |----------|---------------|----------------|------| | 基础掩码 | `[CLS] 机器 [MASK] 习 是 人工 智能 的 核心 分支 [SEP]` | `- - 学 - - - - - - - -` | 单个token掩码 | | 连续掩码 | `[CLS] [MASK] [MASK] 是 人工 智能 的 核心 分支 [SEP]` | `- 机器 学习 - - - - - - - -` | 连续多个token掩码(适配短语预测) | ### 3. 批量训练格式(JSONL) ```jsonl {"input": "[CLS] 自然 [MASK] 处理 是 人工智能 的 重要 方向 [SEP]", "target": "- - 语言 - - - - - - - -"} {"input": "[CLS] [MASK] 器 视觉 旨在 让 计算机 看懂 图像 [SEP]", "target": "- 机 - - - - - - - - -"} ``` # 句子顺序预测(NSP) 辅助预训练任务 **适用模型**:BERT系列(增强句间关系理解) **核心任务**:判断两个句子是否为连续上下文,输入是两个句子的拼接,目标是二元标签。 **核心特点**:输入是句对,目标是逻辑关系标签,提升模型的篇章理解能力。 ### 1. 基础格式设计 | 组成部分 | 具体内容 | 格式要求 | |----------|----------|----------| | **输入(Input)** | `[CLS] 句子A [SEP] 句子B [SEP]`,句子A和B随机为连续上下文(正例)或无关句子(负例) | 必须包含 `[CLS]` `[SEP]` 分隔token | | **目标(Target)** | 正例标签 `1`,负例标签 `0` | 仅二元标签,无文本内容 | ### 2. 典型示例 | 样本类型 | 输入(Input) | 目标(Target) | |----------|---------------|----------------| | 正例 | `[CLS] 人工智能发展迅速 [SEP] 机器学习是其核心技术 [SEP]` | `1` | | 负例 | `[CLS] 人工智能发展迅速 [SEP] 今天的天气非常好 [SEP]` | `0` | 原文出处:http://malaoshi.top/show_1GW2Y9DWUcfJ.html