大模型原理:修改大模型配置 作者:马育民 • 2026-01-28 12:13 • 阅读:10002 **注意:**多篇文章引用该配置,该配置参数勿动 **注意:**多篇文章引用该配置,该配置参数勿动 **注意:**多篇文章引用该配置,该配置参数勿动 # 修改大模型配置 将 `GPT_CONFIG_124M` 字典中的 **上下文长度**(context_length) **减少** 到了 `256个词元`,方便在笔记本电脑上进行训练。 ``` GPT_CONFIG_124M = { "vocab_size": 50257, # 词汇表大小 "context_length": 256, # 改动:将上下文长度从1024个词元缩短到256个词元 "emb_dim": 768, # 嵌入维度 "n_heads": 12, # 注意力头的数量 "n_layers": 12, # 层数 "drop_rate": 0.1, # 可以将dropout设置为0,这也比较常见 "qkv_bias": False # 查询-键-值偏置 } ``` **提示:**参数量为 `1.24亿` 的** GPT-2模型** 被配置为最多处理 `1024个词元`。所以训练完成后,将更新上下文大小设置并加载预训练权重,使其适用于配置为 `1024个词元` 上下文长度的模型。 原文出处:http://malaoshi.top/show_1GW2fqaTnZGg.html