没有用过TF,所以Google的seq2seq我就不说了。在这里只谈一下fairseq和opennmt。先说结论,推荐fairseq。fairseq:优点:速度快。多卡性能好。模型实现得好。封装得好。搞明白了它的包结构之后就比较容易改了。维护的人比较专业,代码写得较好。缺点:因为封装得好,所以一上来可能不太适应。opennmt:优点:
没有用过TF,所以Google的seq2seq我就不说了。在这里只谈一下fairseq和opennmt。
您看到的代码片段很可能来自https://github.com/facebookresearch/fairseq/blob/main/examples/wmt19/READ...
可以理解为cache 避免重复运算 比如transformer的decoder 不cache起来每次都得整一块一起运算 cache起来的...
可以理解为cache 避免重复运算 比如transformer的decoder 不cache起来每次都得整一块一起运算 cache起来的...