Transformer和LSTM的最大区别,就是LSTM的训练是迭代的、串行的,必须要等当前字处理完,才可以处理下一个字。而Transformer的训练是并行的,即所有字是同时训练的,这样就大大增加了计算效率。Transformer 使用了位置嵌入 (Positional Encoding) 来理解语言的顺序,使用自注意力机制(Self Attention Mechanism)和全连接层进行计...
LSTM的起源则比较明确,就是Hochreiter和Schmidhuber发表的经典论文。4. Sepp Hochreiter, Jürgen Schmidhuber; Long Short-Term Memory. NeuralComput 1997; 9 (8): 1735–1780. Transformer则源自Google NLP团队在2017年发表的论文——Attention is all you need。 对于我们生产生活的真实世界来讲,时间是绝对的不可...
另一方面,如果有足够的数据和计算能力,LSTM可以提供更好的性能。