将 Megatron-CNTRL-124M 模型与表 1 和图 3 中的 Yao et al.( 2018 年) 进行比较,我们获得了更高的 4 克、一致性、流利性和一致性分数,这表明了大型预处理变压器模型的好处。将 Megatron-CNTRL-124M 与 Guan et al.( 2020 年) (不可控)进行比较,该模型还使用了表 1 所示的基于 GPT-2 的模型,我...
将 Megatron-CNTRL-124M 模型与表 1 和图 3 中的Yao et al.( 2018 年)进行比较,我们获得了更高的 4 克、一致性、流利性和一致性分数,这表明了大型预处理变压器模型的好处。将 Megatron-CNTRL-124M 与Guan et al.( 2020 年)(不可控)进行比较,该模型还使用了表 1 所示的基于 GPT-...
将 Megatron-CNTRL-124M 模型与表 1 和图 3 中的 Yao et al.( 2018 年) 进行比较,我们获得了更高的 4 克、一致性、流利性和一致性分数,这表明了大型预处理变压器模型的好处。将 Megatron-CNTRL-124M 与 Guan et al.( 2020 年) (不可控)进行比较,该模型还使用了表 1 所示的基于 GPT-2 的模型,我...