当通过在知识图谱上的训练转换为COMET模型时,它们在假设知识元组方面的表现直线上升--COMET(BART)和GPT2-XL在ATOMIC20上的绝对差异为47.9%。 4 总结 在这项工作中,作者确定了常识性知识图作为预训练语言模型的迁移学习工具的用途。在这个新的目的下,假设常识性知识图应该被设计为包含那些语言模型还不能顺利表达的...
接下来,我们将展示ATOMIC20 20更适合于训练能够为新的、不可见的实体和事件生成准确的、有代表性的知识模型。最后,通过人工评估,我们发现GPT-3 (175B参数)的少射击性能虽然令人印象深刻,但仍然比在ATOMIC20 20上训练的基于bart的知识模型低12个绝对点,尽管使用了超过430倍的参数。 引入 近期大规模预训练模型的优...
Finally, through human evaluation, we show that the few-shot performance of GPT-3 (175B parameters), while impressive, remains ~12 absolute points lower than a BART-based knowledge model trained on ATOMIC 2020 despite using over 430x fewer parameters. 展开 ...
(hparams, num_labels=None, mode=self.mode, **kwargs) File "/Users/davidlaxer/comet-atomic-2020/models/comet_atomic2020_bart/lightning_base.py", line 59, in __init__ self.hparams = hparams File "/Users/davidlaxer/tensorflow-metal/lib/python3.8/site-packages/torch/nn/modules/module.py",...