简而言之,是融合了代码指南和原理精讲的一篇文章,力求将笔者对于 Transformer 的理解精粹于一篇文章,本人才疏学浅,欢迎批评指正。 整个文章结构参考 Tensorflow 官方指南,按照自底向上的顺序来逐渐搭建一个用于将葡萄牙语翻译为英语的Transformer模型:先从最基本的算法模块实现,然后组装。在组装过程中讲解各个子模块产生的...