人工智能-自然语言处理-大模型原理教程目录（PyTorch版）-马育民老师

# 介绍

- [大模型原理：本教程根据《从零构建大模型》编写](https://www.malaoshi.top/show_1GW2f6hF6EGM.html "大模型原理：本教程根据《从零构建大模型》编写")

- [NLP自然语言处理介绍](https://www.malaoshi.top/show_1GW2UJo1AbLf.html "NLP自然语言处理介绍")

- [大模型原理：大模型之前，自然语言模型的缺点](https://www.malaoshi.top/show_1GW2ZbqWTkkp.html "大模型原理：大模型之前，自然语言模型的缺点")

- [NLP自然语言处理-Transformer介绍](https://www.malaoshi.top/show_1GW2UPIvxI49.html "NLP自然语言处理-Transformer介绍")

- [LLM大语言模型介绍](https://www.malaoshi.top/show_1GW1ojKs8nLZ.html "LLM大语言模型介绍")

- [NLP自然语言处理-Transformer架构](https://www.malaoshi.top/show_1GW2UVPLSEtF.html "NLP自然语言处理-Transformer架构")

- [大模型架构选型：纯编码器、纯解码器与 Encoder-Decoder 区别](https://www.malaoshi.top/show_1GW2Y8HX97Kh.html "大模型架构选型：纯编码器、纯解码器与 Encoder-Decoder 区别")

- [NLP、LLM、Transformer关系](https://www.malaoshi.top/show_1GW2UM7yhmNU.html "NLP、LLM、Transformer关系")

# 预处理

- [大模型原理：embedding词嵌入（文字转化为向量）](https://www.malaoshi.top/show_1GW2VwMDTwva.html "大模型原理：embedding词嵌入（文字转化为向量）")

- [大模型原理：词汇表、分词器类，将文本转换为词元ID，将词元ID转回文本](https://www.malaoshi.top/show_1GW2WAyk1P5B.html "大模型原理：词汇表、分词器类，将文本转换为词元ID，将词元ID转回文本")

- [大模型原理：控制文本的特殊标记（token）](https://www.malaoshi.top/show_1GW2WgDES9Or.html "大模型原理：控制文本的特殊标记（token）")

- [大模型原理：BPE分词器介绍](https://www.malaoshi.top/show_1GW2WgnAuVe5.html "大模型原理：BPE分词器介绍")

- [大模型原理：BPE分词器比较：tokenizers和tiktoken](https://www.malaoshi.top/show_1GW2Wh2mHEMu.html "大模型原理：BPE分词器比较：tokenizers和tiktoken")

- [大模型原理：BPE分词器 tiktoken的介绍、使用](https://www.malaoshi.top/show_1GW2Y24DjGX1.html "大模型原理：BPE分词器 tiktoken的介绍、使用")

- [大模型原理：输入-目标对](https://www.malaoshi.top/show_1GW2Y97fMBL5.html "大模型原理：输入-目标对")

- [大模型原理：预训练目标-因果语言建模（CLM）掩码语言建模（MLM）、下一句预测（NSP）](https://www.malaoshi.top/show_1GW2Y9DWUcfJ.html "大模型原理：预训练目标-因果语言建模（CLM）掩码语言建模（MLM）、下一句预测（NSP）")

- [大模型原理：预训练目标-因果语言建模（CLM）](https://www.malaoshi.top/show_1GW2YBs0zklJ.html "大模型原理：预训练目标-因果语言建模（CLM）")

- [大模型原理：预训练目标-因果语言建模（CLM）-使用滑动窗口进行数据采样](https://www.malaoshi.top/show_1GW2YV1NBWPm.html "大模型原理：预训练目标-因果语言建模（CLM）-使用滑动窗口进行数据采样")

- [PyTorch深度学习框架介绍](https://www.malaoshi.top/show_1GW2YUseIgCT.html "PyTorch深度学习框架介绍")

- [大模型原理：预训练目标-因果语言建模（CLM）-pytorch实现数据集](https://www.malaoshi.top/show_1GW2YXCJgYVE.html "大模型原理：预训练目标-因果语言建模（CLM）-pytorch实现数据集")

- [大模型原理：预训练目标-因果语言建模（CLM）-滑动窗口步长stride的含义](https://www.malaoshi.top/show_1GW2YXBPPimC.html "大模型原理：预训练目标-因果语言建模（CLM）-滑动窗口步长stride的含义")

- [大模型原理：embedding词元嵌入1](https://www.malaoshi.top/show_1GW2YriiPo97.html "大模型原理：embedding词元嵌入1")

- [大模型原理：编码单词位置信息](https://www.malaoshi.top/show_1GW2YsuvK4X0.html "大模型原理：编码单词位置信息")

- [大模型原理：embedding词元嵌入2-加入位置信息](https://www.malaoshi.top/show_1GW2YuupnGNY.html "大模型原理：embedding词元嵌入2-加入位置信息")

# [自注意力机制](https://www.malaoshi.top/show_1GW2Zb9oJOhu.html "注意力机制阶段")

- [大模型原理：大模型之前，自然语言模型的缺点](https://www.malaoshi.top/show_1GW2ZbqWTkkp.html "大模型原理：大模型之前，自然语言模型的缺点")

- [大模型原理：传统的注意力（Attention）机制和自注意力（Self-Attention）机制、上下文向量](https://www.malaoshi.top/show_1GW2awZoUzdk.html "大模型原理：传统的注意力（Attention）机制和自注意力（Self-Attention）机制")

- [大模型原理：实现简单自注意力机制（没有可训练权重）](https://www.malaoshi.top/show_1GW2bqWOI5fP.html "大模型原理：实现简单自注意力机制（没有可训练权重）")

- [softmax 概率归一化](https://www.malaoshi.top/show_1GW2biBfUWT5.html "softmax 概率归一化")

- [大模型原理：实现带可训练权重的自注意力机制（以第二个输入元素为计算例子）](https://www.malaoshi.top/show_1GW2cIAFk564.html "大模型原理：实现带可训练权重的自注意力机制（以第二个输入元素为计算例子）")

- [大模型原理：为什么缩放注意力分数](https://www.malaoshi.top/show_1GW2cFPwovqG.html "大模型原理：为什么缩放注意力分数")

- [大模型原理：实现带可训练权重的自注意力机制-封装类计算所有上下文向量](https://www.malaoshi.top/show_1GW2cIKgykhk.html "大模型原理：实现带可训练权重的自注意力机制-封装类计算所有上下文向量")

# 因果注意力

- [大模型原理：因果注意力（掩码注意力）](https://www.malaoshi.top/show_1GW2czzOoWbx.html "大模型原理：因果注意力（掩码注意力）")

- [大模型原理：因果注意力（掩码注意力）-用dropout避免过拟合](https://www.malaoshi.top/show_1GW2d04RucdI.html "大模型原理：因果注意力（掩码注意力）-用dropout避免过拟合")

- [Dropout抑制过拟合](https://www.malaoshi.top/show_1EF48EJqA5QC.html "Dropout抑制过拟合")

- [大模型原理：因果注意力（掩码注意力）-封装类](https://www.malaoshi.top/show_1GW2d1wFDXzj.html "大模型原理：因果注意力（掩码注意力）-封装类")

- [标准自注意力（Self-Attention） 和因果注意力（Causal Attention） 的区别](https://www.malaoshi.top/show_1GW2dDHAuGtE.html "标准自注意力（Self-Attention） 和因果注意力（Causal Attention） 的区别")

# 多头注意力

- [大模型原理：多头注意力](https://www.malaoshi.top/show_1GW2dIcfTKjw.html "大模型原理：多头注意力")

- [大模型原理：多头注意力-优化](https://www.malaoshi.top/show_1GW2dNTdlgrD.html "大模型原理：多头注意力-优化")

# 构建大语言模型

- [大模型原理：构建GPT-2大语言模型](https://www.malaoshi.top/show_1GW2dwlaqFXF.html "大模型原理：构建GPT-2大语言模型")

- [大模型原理：构建GPT-2大语言模型-理解层归一化原理](https://www.malaoshi.top/show_1GW2e9tQZMtc.html "大模型原理：构建GPT-2大语言模型-理解层归一化原理")

- [大模型原理：构建GPT-2大语言模型-实现层归一化类](https://www.malaoshi.top/show_1GW2eJda5VjE.html "大模型原理：构建GPT-2大语言模型-实现层归一化类")

- [大模型原理：实现具有GELU激活函数的前馈神经网络](https://www.malaoshi.top/show_1GW2eUXqs4Of.html "大模型原理：实现具有GELU激活函数的前馈神经网络")

- [前馈神经网络（feedforward neural network，FNN）](https://www.malaoshi.top/show_1GW2eUXAGQ6e.html "前馈神经网络（feedforward neural network，FNN）")

- [激活函数-GELU（平滑的 ReLU 变体）](https://www.malaoshi.top/show_1GW2eLqXgzw9.html "激活函数-GELU（平滑的 ReLU 变体）")

- [大模型原理：添加快捷连接（跳跃连接）](https://www.malaoshi.top/show_1GW2ehpe1E6Z.html "大模型原理：添加快捷连接（跳跃连接）")

- [梯度消失、梯度爆炸的原因](https://www.malaoshi.top/show_1GW2eVlKGbYD.html "梯度消失、梯度爆炸的原因")
 
- [大模型原理：实现Transformer块（连接注意力层和线性层等）](https://www.malaoshi.top/show_1GW2elrInYWr.html "大模型原理：实现Transformer块（连接注意力层和线性层等）")

- [大模型原理：实现GPT模型](https://www.malaoshi.top/show_1GW2eoJJVnpQ.html "大模型原理：实现GPT模型")

- [大模型原理：生成文本原理、演示](https://www.malaoshi.top/show_1GW2esSDq8xF.html "大模型原理：生成文本原理、演示")

# 预训练

- [大模型原理：评估文本生成模型介绍](https://www.malaoshi.top/show_1GW2fpFcacoi.html "大模型原理：评估文本生成模型介绍")

- [大模型原理：修改大模型配置](https://www.malaoshi.top/show_1GW2fqaTnZGg.html "大模型原理：修改大模型配置")

- [大模型原理：文本生成过程、优化生成文本](https://www.malaoshi.top/show_1GW2fqXxcIYW.html "大模型原理：文本生成过程、优化生成文本")

- [大模型原理：计算文本生成损失（交叉熵损失函数）](https://www.malaoshi.top/show_1GW2fyLPhdP0.html "大模型原理：计算文本生成损失（交叉熵损失函数）")

- [softmax 概率归一化](https://www.malaoshi.top/show_1GW2biBfUWT5.html "softmax 概率归一化")

- [损失函数-交叉熵（多分类）](https://www.malaoshi.top/show_1EF4La0KENhc.html "损失函数-交叉熵（多分类）")

- [大模型原理：计算训练集和验证集的损失](https://www.malaoshi.top/show_1GW2gL6UlC0T.html "大模型原理：计算训练集和验证集的损失")

# 训练模型

- [大模型原理：训练大语言模型](https://www.malaoshi.top/show_1GW2gao7GXBd.html "大模型原理：训练大语言模型")

- [大模型原理：保存、加载模型和优化器的权重](https://www.malaoshi.top/show_1GW2gfmlBW0J.html "大模型原理：保存、加载模型和优化器的权重")

### 加载GPT2预训练权重

- [大模型原理：GPTModel模型加载gpt2 1.2亿的预训练权重](https://www.malaoshi.top/show_1GW2fFk9hszk.html "大模型原理：GPTModel模型加载gpt2 1.2亿的预训练权重")

# 其他

- [大模型原理：通用代码合集](https://www.malaoshi.top/show_1GW2f5VTAjjY.html "大模型原理：通用代码合集")

# 相关知识

- [导数](https://www.malaoshi.top/show_1GW2Z9BmgHme.html "导数")

- [求导](https://www.malaoshi.top/show_1GW2Z9DSZRso.html "求导")

- [偏导数](https://www.malaoshi.top/show_1GW2ZVdj4Tlk.html "偏导数")

- [向量](https://www.malaoshi.top/show_1GW2ZghpL9o0.html "向量")

- [张量](https://www.malaoshi.top/show_1GW2Z8CI42lh.html "张量")

- [张量为什么能自动求导](https://www.malaoshi.top/show_1GW2Z8GaRIct.html "张量为什么能自动求导")

- [正则化（机器学习、深度学习）](https://www.malaoshi.top/show_1GW2cw5fNl9t.html "正则化（机器学习、深度学习）")

- [超参数、模型参数](https://www.malaoshi.top/show_1GW2gYvYnxXc.html "超参数、模型参数")

原文出处：http://malaoshi.top/show_1GW2UUypHZme.html