pytorch api文档:nn.Linear类与nn.Parameter区别
pytorch api文档:nn.Linear类(线性层/全连接层)
大模型原理:实现带可训练权重的自注意力机制-封装类计算所有上下文向量
大模型原理:为什么缩放注意力分数
pytorch api文档:torch.randperm()生成无重复随机整数的一维张量
pytorch api文档:torch.randint()生成整数型随机张量
torch.randn() 函数,是生成 标准正态分布 随机张量 的核心工具,也是深度学习中 模型权重初始化 的 首选函数(如线性层、卷积层)
pytorch api文档:torch.rand()和torch.randn()区别
pytorch api文档:torch.rand()生成均匀分布随机张量[0, 1) 区间
pytorch api文档:torch.nn.Parameter可训练参数的封装类