第一列中,Transformer是原生的, Reversible Transformer就是论文引入的可逆Transformer(接下来详细说), Chunked Reversible Transformer就是可逆网络分块处理(接下来详细说),LSH Transformer就是文中引入的局部近似Hash(接下来详细说), Reformer就是上述三个汇总。 参数解释如下,b是batch size, l是输入文本长度, dff是fe...
论文地址: https://arxiv.org/pdf/2001.04451.pdfarxiv.org/pdf/2001.04451.pdf 一、概述 Transformer自从出现以来就彻底改变了深度学习领域,特别是NLP领域。众所周知的BERT现在已经成了nlp领域的标配和终极武器了。但是虽然Transformer有如此强的特征提取能力,但是还是有很多的问题存在,Reformer的出现主要是为了解决...
文章目录 Reformer要解决的问题 Reformer怎么解决以上三个问题 Reformer时间、空间复杂度汇总 我们接下来详解以上三个改进 一. hash近似Attention 二. 可逆网络 三. 可逆网络分块 四. 总结一下,Reformer确实在内存、性能优化方面明显改进,提出或借鉴的方法比较有意思。 如有不对地方,欢迎指出,谢谢。 参考链接: 论文:...