浮生若梦26: 作者你好,关于多头注意力部分的讲解与我之前的理解相差比较大,因此我特意去寻找了其他资料,比较经典的是这个外网博客:https://jalammar.github.io/illustrated-transformer/,这里面关于多头注意力机制的介绍,似乎并不是将QKV矩阵进行拆解,而是有多组QKV矩阵同时运算,并将结果进行拼接,最后你提到的W^O矩阵在这篇博客里的作用便是将这个拼接出来的矩阵进行纬度转换(或者将不同的QKV算出来的结果矩阵进行加权求和)。这与你提到的拆分出入似乎有点大,由于我也是初学,想知道哪种说法更准确呢?
什么是范数(Norm),其具有哪些性质2301_76254949: 范数:有长度的函数
Hugging Face快速入门(重点讲解模型(Transformers)和数据集部分(Datasets))iioSnail: 一般是的
Hugging Face快速入门(重点讲解模型(Transformers)和数据集部分(Datasets))qq_54138759: 我想问一下,hugging face上的模型都是训练好的嘛?
Pytorch入门实战(5):基于nn.Transformer实现机器翻译(英译汉)ππer: OK我知道了,在调用criterion的时候对out和tgt_y做了view操作的。如果想直接criterion(out,tgt_y)的话,可以参考我上面的分析