使用encoder-decoder模型的原因在于其强大的灵活性与适应性。这类模型尤其适用于那些输入与输出可以以固定维度向量合理编码的问题。例如在自然语言处理领域,文本翻译、文本摘要、情感分析等任务。在这些任务中,文本数据通常以序列形式存在,而encoder-decoder模型能够将输入序列编码为固定维度的表示,随后解码器...
1. 高效处理变长序列问题。2.降维。
也就是说,decoder到某位置时,我们希望得到一个当前位置的有用的hidden,这个有用hidden, 除了考虑之前...
V输入用的是encoder的输出,并不是共享了K, V参数,decoder每层的参数都是独立的。
一块是正常的Self-Attention,QKV的输入都来自Decoder上一层的输出;另一块就是题目里面提到的Encoder ...
通过Q来与encoder的结果计算attention权重后,得到与此刻要decoder信息强相关的表达以有助于decoder正确输出...
之前做论文分享, 我老师问, 为什么sa模块里是2个全连接, 用1个或者3个会怎么样? 我: QAQ ...
首先decoder里的k和v并不全都是encoder的输出,self attention用的是decoder自身的input。至于为什么要用...
1. 高效处理变长序列问题。2.降维。