T5 PEGASUS:开源一个中文生成式预训练模型去年在文章《那个屠榜的T5模型,现在可以在中文上玩玩了》中我们介绍了Google的多国语言版T5模型(mT5),并给出了用mT5进行中文文本生成任务的例子。诚然,mT5做中文生成任务也是一个可用的方案,但缺乏完全由中文语料训练出来模型总感觉有点别扭,于是决心要搞一个出来。 经过反复...
实验结果表明,与传统的T5-Pegasus模型相比,该模型生成的摘要在ROUGE-1、ROUGE-2和ROUGE-L指标上均有提升,有效提高了事实准确性,生成了更好的文本摘要。 关键词:中文新闻;生成式文本摘要;命名实体识别;T5-Pegasua模型 0引言 随着互联网的快速发展,海量的信息每天都会以数字形式生成大量文本,主要来自新闻文章、社交...
T5 PEGASUS:开源一个中文生成式预训练模型https://github.com/ZhuiyiTechnology/t5-pegasushttps://github.com/renmada/t5-pegasus-pytorch
中文生成式预训练模型,以mT5为基础架构和初始权重,通过类似PEGASUS的方式进行预训练。 详情可见: ://kexue.fm/archives/8209 分词器 我们将T5 PEGASUS的令牌生成器转换成BERT的令牌生成器,它对中文更友好。同时,我们重新排列一版词表,从而里边的字,词都更加完善,目前的vocab.txt共包含5万个token,真正覆盖了中文的...
首先利用T5-PEGASUS获取最符合原文语义的词向量表示,然后借助引入覆盖机制的指针生成网络,生成高质量、高可读的最终摘要。在公开的长文本数据集NLPCC2017的实验结果表明,与PGN模型、BERT-PGN等模型相比,结合更贴合下游摘要任务的预训练模型的T5-PEGASUS-PGN模型能够生成更符合原文语义、内容更加丰富的摘要并且能有效的抑制...
目前开源的 T5 PEGASUS 是 base 版,总参数量为 2.75 亿,训练时最大长度为512,batch_size [5] 为 96,学习率为 ,使用 6 张 3090 训练了 100 万步,训练时间约 13 天,数据是 30 多 G 的精处理通用语料,训练 acc 约 47%,训练 loss 约 2.97。模型使用 bert4keras 进行编写、训练和测试。
目前开源的 T5 PEGASUS 是 base 版,总参数量为 2.75 亿,训练时最大长度为512,batch_size [5] 为 96,学习率为 ,使用 6 张 3090 训练了 100 万步,训练时间约 13 天,数据是 30 多 G 的精处理通用语料,训练 acc 约 47%,训练 loss 约 2.97。模型使用 bert4keras 进行编写、训练和测试。