大模型原理:embedding词嵌入(文字转化为向量) 作者:马育民 • 2026-01-01 19:17 • 阅读:10003 # 提出问题 深度学习模型 **无法直接处理 文本 这种原始格式的数据**,因为神经网络训练需要 **数学运算**,**文本无法做数学运算** ### 解决 需要将 **文字 转换 为向量** # 介绍 将 **文字 转换 为向量** ,这一过程,称为:**文本的向量化**,又称为:**Embedding(嵌入)** 最终得到的向量叫 **文本向量/词向量/句向量/文档向量**,大模型里统一叫 **Embedding向量**。 可以通过特定的 **神经网络层** 或 利用另一个 **预训练的神经网络模型**,将这些 **原始数据** 转换为深度学习架构容易理解和处理的 **密集向量** 表示,如下图: [](https://www.malaoshi.top/upload/0/0/1GW2VRJ9AZA6.png) ### 向量本质 **把人类的「文字语义」,翻译成计算机能理解的「数字数组」**,数组里的每个数字都是浮点数,比如 `[0.123, -0.456, 0.789, ...]`。 ### 核心逻辑 **语义越相似的文字,转化后的向量在高维空间中的「距离越近」**,这是大模型能理解语义、做问答/翻译/摘要/检索的底层根基。 在使用词嵌入技术(如word2vec)时,表示相似概念的词通常会在嵌入空间中彼此接近。 例如:如果词嵌入是二维的,那么就可以将它们绘制在二维散点图中进行可视化。不同类型的 **鸟类的距离** 通常比国家和城市之间的距离更近 [](https://www.malaoshi.top/upload/0/0/1GW2Vw1Taya8.png) **提示:**高维嵌入 **难以进行可视化**。这是因为我们的感官以及常见的图形表示方法本质上局限于三维或更低的维度 ### 向量维度 大模型的Embedding维度常见 **768/1024/2048/4096**,维度越高,能承载的语义信息越丰富,计算成本也越高;小模型一般用128/256维。 原文出处:http://malaoshi.top/show_1GW2VwMDTwva.html