不少用BERT+NMT有效的工作几乎都不跟BT 比,唯一的价值就是证明BERT通过提出的方法可以优化NMT,但是从实用角度,BT如果同样好用为啥要用BERT?感觉大炮打蚊子,尤其是资源丰富的语种
This repo covers methodologies to utilize Pre Trained BERT model on NMT Task - moon23k/Transformer_Fusion