人工智能-自然语言处理-大模型原理教程目录(PyTorch版) 作者:马育民 • 2025-12-28 22:45 • 阅读:10010 # 介绍 - [大模型原理:本教程根据《从零构建大模型》编写](https://www.malaoshi.top/show_1GW2f6hF6EGM.html "大模型原理:本教程根据《从零构建大模型》编写") - [NLP自然语言处理介绍](https://www.malaoshi.top/show_1GW2UJo1AbLf.html "NLP自然语言处理介绍") - [大模型原理:大模型之前,自然语言模型的缺点](https://www.malaoshi.top/show_1GW2ZbqWTkkp.html "大模型原理:大模型之前,自然语言模型的缺点") - [NLP自然语言处理-Transformer介绍](https://www.malaoshi.top/show_1GW2UPIvxI49.html "NLP自然语言处理-Transformer介绍") - [LLM大语言模型介绍](https://www.malaoshi.top/show_1GW1ojKs8nLZ.html "LLM大语言模型介绍") - [NLP自然语言处理-Transformer架构](https://www.malaoshi.top/show_1GW2UVPLSEtF.html "NLP自然语言处理-Transformer架构") - [大模型架构选型:纯编码器、纯解码器与 Encoder-Decoder 区别](https://www.malaoshi.top/show_1GW2Y8HX97Kh.html "大模型架构选型:纯编码器、纯解码器与 Encoder-Decoder 区别") - [NLP、LLM、Transformer关系](https://www.malaoshi.top/show_1GW2UM7yhmNU.html "NLP、LLM、Transformer关系") # 预处理 - [大模型原理:embedding词嵌入(文字转化为向量)](https://www.malaoshi.top/show_1GW2VwMDTwva.html "大模型原理:embedding词嵌入(文字转化为向量)") - [大模型原理:词汇表、分词器类,将文本转换为词元ID,将词元ID转回文本](https://www.malaoshi.top/show_1GW2WAyk1P5B.html "大模型原理:词汇表、分词器类,将文本转换为词元ID,将词元ID转回文本") - [大模型原理:控制文本的特殊标记(token)](https://www.malaoshi.top/show_1GW2WgDES9Or.html "大模型原理:控制文本的特殊标记(token)") - [大模型原理:BPE分词器介绍](https://www.malaoshi.top/show_1GW2WgnAuVe5.html "大模型原理:BPE分词器介绍") - [大模型原理:BPE分词器比较:tokenizers和tiktoken](https://www.malaoshi.top/show_1GW2Wh2mHEMu.html "大模型原理:BPE分词器比较:tokenizers和tiktoken") - [大模型原理:BPE分词器 tiktoken的介绍、使用](https://www.malaoshi.top/show_1GW2Y24DjGX1.html "大模型原理:BPE分词器 tiktoken的介绍、使用") - [大模型原理:输入-目标对](https://www.malaoshi.top/show_1GW2Y97fMBL5.html "大模型原理:输入-目标对") - [大模型原理:预训练目标-因果语言建模(CLM)掩码语言建模(MLM)、下一句预测(NSP)](https://www.malaoshi.top/show_1GW2Y9DWUcfJ.html "大模型原理:预训练目标-因果语言建模(CLM)掩码语言建模(MLM)、下一句预测(NSP)") - [大模型原理:预训练目标-因果语言建模(CLM)](https://www.malaoshi.top/show_1GW2YBs0zklJ.html "大模型原理:预训练目标-因果语言建模(CLM)") - [大模型原理:预训练目标-因果语言建模(CLM)-使用滑动窗口进行数据采样](https://www.malaoshi.top/show_1GW2YV1NBWPm.html "大模型原理:预训练目标-因果语言建模(CLM)-使用滑动窗口进行数据采样") - [PyTorch深度学习框架介绍](https://www.malaoshi.top/show_1GW2YUseIgCT.html "PyTorch深度学习框架介绍") - [大模型原理:预训练目标-因果语言建模(CLM)-pytorch实现数据集](https://www.malaoshi.top/show_1GW2YXCJgYVE.html "大模型原理:预训练目标-因果语言建模(CLM)-pytorch实现数据集") - [大模型原理:预训练目标-因果语言建模(CLM)-滑动窗口步长stride的含义](https://www.malaoshi.top/show_1GW2YXBPPimC.html "大模型原理:预训练目标-因果语言建模(CLM)-滑动窗口步长stride的含义") - [大模型原理:embedding词元嵌入1](https://www.malaoshi.top/show_1GW2YriiPo97.html "大模型原理:embedding词元嵌入1") - [大模型原理:编码单词位置信息](https://www.malaoshi.top/show_1GW2YsuvK4X0.html "大模型原理:编码单词位置信息") - [大模型原理:embedding词元嵌入2-加入位置信息](https://www.malaoshi.top/show_1GW2YuupnGNY.html "大模型原理:embedding词元嵌入2-加入位置信息") # [自注意力机制](https://www.malaoshi.top/show_1GW2Zb9oJOhu.html "注意力机制阶段") - [大模型原理:大模型之前,自然语言模型的缺点](https://www.malaoshi.top/show_1GW2ZbqWTkkp.html "大模型原理:大模型之前,自然语言模型的缺点") - [大模型原理:传统的注意力(Attention)机制和自注意力(Self-Attention)机制、上下文向量](https://www.malaoshi.top/show_1GW2awZoUzdk.html "大模型原理:传统的注意力(Attention)机制和自注意力(Self-Attention)机制") - [大模型原理:实现简单自注意力机制(没有可训练权重)](https://www.malaoshi.top/show_1GW2bqWOI5fP.html "大模型原理:实现简单自注意力机制(没有可训练权重)") - [softmax 概率归一化](https://www.malaoshi.top/show_1GW2biBfUWT5.html "softmax 概率归一化") - [大模型原理:实现带可训练权重的自注意力机制(以第二个输入元素为计算例子)](https://www.malaoshi.top/show_1GW2cIAFk564.html "大模型原理:实现带可训练权重的自注意力机制(以第二个输入元素为计算例子)") - [大模型原理:为什么缩放注意力分数](https://www.malaoshi.top/show_1GW2cFPwovqG.html "大模型原理:为什么缩放注意力分数") - [大模型原理:实现带可训练权重的自注意力机制-封装类计算所有上下文向量](https://www.malaoshi.top/show_1GW2cIKgykhk.html "大模型原理:实现带可训练权重的自注意力机制-封装类计算所有上下文向量") # 因果注意力 - [大模型原理:因果注意力(掩码注意力)](https://www.malaoshi.top/show_1GW2czzOoWbx.html "大模型原理:因果注意力(掩码注意力)") - [大模型原理:因果注意力(掩码注意力)-用dropout避免过拟合](https://www.malaoshi.top/show_1GW2d04RucdI.html "大模型原理:因果注意力(掩码注意力)-用dropout避免过拟合") - [Dropout抑制过拟合](https://www.malaoshi.top/show_1EF48EJqA5QC.html "Dropout抑制过拟合") - [大模型原理:因果注意力(掩码注意力)-封装类](https://www.malaoshi.top/show_1GW2d1wFDXzj.html "大模型原理:因果注意力(掩码注意力)-封装类") - [标准自注意力(Self-Attention) 和因果注意力(Causal Attention) 的区别](https://www.malaoshi.top/show_1GW2dDHAuGtE.html "标准自注意力(Self-Attention) 和因果注意力(Causal Attention) 的区别") # 多头注意力 - [大模型原理:多头注意力](https://www.malaoshi.top/show_1GW2dIcfTKjw.html "大模型原理:多头注意力") - [大模型原理:多头注意力-优化](https://www.malaoshi.top/show_1GW2dNTdlgrD.html "大模型原理:多头注意力-优化") # 构建大语言模型 - [大模型原理:构建GPT-2大语言模型](https://www.malaoshi.top/show_1GW2dwlaqFXF.html "大模型原理:构建GPT-2大语言模型") - [大模型原理:构建GPT-2大语言模型-理解层归一化原理](https://www.malaoshi.top/show_1GW2e9tQZMtc.html "大模型原理:构建GPT-2大语言模型-理解层归一化原理") - [大模型原理:构建GPT-2大语言模型-实现层归一化类](https://www.malaoshi.top/show_1GW2eJda5VjE.html "大模型原理:构建GPT-2大语言模型-实现层归一化类") - [大模型原理:实现具有GELU激活函数的前馈神经网络](https://www.malaoshi.top/show_1GW2eUXqs4Of.html "大模型原理:实现具有GELU激活函数的前馈神经网络") - [前馈神经网络(feedforward neural network,FNN)](https://www.malaoshi.top/show_1GW2eUXAGQ6e.html "前馈神经网络(feedforward neural network,FNN)") - [激活函数-GELU(平滑的 ReLU 变体)](https://www.malaoshi.top/show_1GW2eLqXgzw9.html "激活函数-GELU(平滑的 ReLU 变体)") - [大模型原理:添加快捷连接(跳跃连接)](https://www.malaoshi.top/show_1GW2ehpe1E6Z.html "大模型原理:添加快捷连接(跳跃连接)") - [梯度消失、梯度爆炸的原因](https://www.malaoshi.top/show_1GW2eVlKGbYD.html "梯度消失、梯度爆炸的原因") - [大模型原理:实现Transformer块(连接注意力层和线性层等)](https://www.malaoshi.top/show_1GW2elrInYWr.html "大模型原理:实现Transformer块(连接注意力层和线性层等)") - [大模型原理:实现GPT模型](https://www.malaoshi.top/show_1GW2eoJJVnpQ.html "大模型原理:实现GPT模型") - [大模型原理:生成文本原理、演示](https://www.malaoshi.top/show_1GW2esSDq8xF.html "大模型原理:生成文本原理、演示") # 预训练 - [大模型原理:评估文本生成模型介绍](https://www.malaoshi.top/show_1GW2fpFcacoi.html "大模型原理:评估文本生成模型介绍") - [大模型原理:修改大模型配置](https://www.malaoshi.top/show_1GW2fqaTnZGg.html "大模型原理:修改大模型配置") - [大模型原理:文本生成过程、优化生成文本](https://www.malaoshi.top/show_1GW2fqXxcIYW.html "大模型原理:文本生成过程、优化生成文本") - [大模型原理:计算文本生成损失(交叉熵损失函数)](https://www.malaoshi.top/show_1GW2fyLPhdP0.html "大模型原理:计算文本生成损失(交叉熵损失函数)") - [softmax 概率归一化](https://www.malaoshi.top/show_1GW2biBfUWT5.html "softmax 概率归一化") - [损失函数-交叉熵(多分类)](https://www.malaoshi.top/show_1EF4La0KENhc.html "损失函数-交叉熵(多分类)") - [大模型原理:计算训练集和验证集的损失](https://www.malaoshi.top/show_1GW2gL6UlC0T.html "大模型原理:计算训练集和验证集的损失") # 训练模型 - [大模型原理:训练大语言模型](https://www.malaoshi.top/show_1GW2gao7GXBd.html "大模型原理:训练大语言模型") - [大模型原理:保存、加载模型和优化器的权重](https://www.malaoshi.top/show_1GW2gfmlBW0J.html "大模型原理:保存、加载模型和优化器的权重") ### 加载GPT2预训练权重 - [大模型原理:GPTModel模型加载gpt2 1.2亿的预训练权重](https://www.malaoshi.top/show_1GW2fFk9hszk.html "大模型原理:GPTModel模型加载gpt2 1.2亿的预训练权重") # 其他 - [大模型原理:通用代码合集](https://www.malaoshi.top/show_1GW2f5VTAjjY.html "大模型原理:通用代码合集") # 相关知识 - [导数](https://www.malaoshi.top/show_1GW2Z9BmgHme.html "导数") - [求导](https://www.malaoshi.top/show_1GW2Z9DSZRso.html "求导") - [偏导数](https://www.malaoshi.top/show_1GW2ZVdj4Tlk.html "偏导数") - [向量](https://www.malaoshi.top/show_1GW2ZghpL9o0.html "向量") - [张量](https://www.malaoshi.top/show_1GW2Z8CI42lh.html "张量") - [张量为什么能自动求导](https://www.malaoshi.top/show_1GW2Z8GaRIct.html "张量为什么能自动求导") - [正则化(机器学习、深度学习)](https://www.malaoshi.top/show_1GW2cw5fNl9t.html "正则化(机器学习、深度学习)") - [超参数、模型参数](https://www.malaoshi.top/show_1GW2gYvYnxXc.html "超参数、模型参数") 原文出处:http://malaoshi.top/show_1GW2UUypHZme.html