我的理解是Transformer只有在train的时候是并行的,测试的时候机制和RNN一样,都是一个个单词预测的,只不过预测第i+1个单词使用的是前i个单词的output,因此不存在需要真实标签输入的问题,具体可以看下知乎这个链接Transformer测试时的解码过程 2022-06-10 回复37查看全部 43 条回复 个耿耿于怀 写的挺好...
论文解读 | Transformer 原理深入浅出 Attention 机制由 Bengio 团队于 2014 年提出,并广泛应用在深度学习的各个领域。而 Google 提出的用于生成词向量的 Bert 在 NLP 的 11 项任务中取得了效果的大幅提升,Bert 正是基于双向 T… 随时学丫 Transformer模型详解(图解最完整版) 初识CV发表于初识CV Transformer 细节...