软件工程

MultiHead-Attention和Masked-Attention的机制和原理

浮生若梦26: 作者你好，关于多头注意力部分的讲解与我之前的理解相差比较大，因此我特意去寻找了其他资料，比较经典的是这个外网博客：https://jalammar.github.io/illustrated-transformer/，这里面关于多头注意力机制的介绍，似乎并不是将QKV矩阵进行拆解，而是有多组QKV矩阵同时运算，并将结果进行拼接，最后你提到的W^O矩阵在这篇博客里的作用便是将这个拼接出来的矩阵进行纬度转换（或者将不同的QKV算出来的结果矩阵进行加权求和）。这与你提到的拆分出入似乎有点大，由于我也是初学，想知道哪种说法更准确呢？

什么是范数（Norm），其具有哪些性质

2301_76254949: 范数：有长度的函数

Hugging Face快速入门（重点讲解模型(Transformers)和数据集部分(Datasets)）

iioSnail: 一般是的

Hugging Face快速入门（重点讲解模型(Transformers)和数据集部分(Datasets)）

qq_54138759: 我想问一下，hugging face上的模型都是训练好的嘛？

Pytorch入门实战（5）：基于nn.Transformer实现机器翻译（英译汉）

ππer: OK我知道了，在调用criterion的时候对out和tgt_y做了view操作的。如果想直接criterion(out,tgt_y)的话，可以参考我上面的分析

云奕文章网

相关推荐：