一位名叫”Zeyao Du“(位于南京)的开发者,在GitHub上开源了的GPT-2 Chinese。 可以用于写诗、新闻、小说和剧本,或是训练通用语言模型。 项目中默认使用BERT的tokenizer处理中文字符,支持字为单位或是分词模式或是BPE模式,并支持大语料训练。 目前项目主要架构已经稳定,具体的训练语料,作者也附上了相应的链接...
GPT2-Chinese Description Chinese version of GPT2 training code, using BERT tokenizer or BPE tokenizer. It is based on the extremely awesome repository from HuggingFace team Pytorch-Transformers. Can write poems, news, novels, or train general language models. Support char level, word level and BP...
以下是几个可供参考的GPT-2中文生成软件:支持人工纠错的 gpt2-chinese:这是一个在GPT-2模型中添加了中文技术语料库的计划。它在生成中文文本时提供了纠错功能,以确保生成的文本正确无误。GPT2 中文文本生成器 by HitLynx:这是一个基于GPT-2模型的中文文本生成器,可用于以多种方式生成中文文本、故事和诗歌。
skin=rec&type=repository&q=gpt2-chinese&repo=&reponame=(不是镜像,布吉岛为什么) 下面是踩坑记录。 1.一开始咱用的云服务器,就安装了Python 3.80,然而后面运行的时候报错(time.clock()缺失),其原因是因为time.clock已在Python 3.3中弃用,将从Python 3.8中删除:使用time.perf_counter或time.process_time代替...
GPT2-Chinese Description Chinese version of GPT2 training code, using BERT tokenizer or BPE tokenizer. It is based on the extremely awesome repository from HuggingFace team Transformers. Can write poems, news, novels, or train general language models. Support char level, word level and BPE level...
新项目Decoders-Chinese-TF2.0同样支持GPT2的中文训练,在使用上更加简单,不易产生各种问题。目前还在测试阶段,欢迎大家提出意见。 NEWS 11.9 GPT2-ML(与本项目无任何直接关联)已发布,包含1.5B中文GPT2模型。大家如有兴趣或需要可将其转换为本项目支持的Pytorch格式进行进一步训练或生成测试。
⚙️训练代码train_chinese_gpt2.ipynb ⚠️注意 现在训练一个gpt2代码,其实很简单的。抛开处理数据问题,技术上就三点:tokenizer、gpt2_model、Trainer tokenizer使用的是bert-base-chinese,然后再添加一下bos_token、eos_token、pad_token。 gpt2_model使用的是gpt2,这里的gpt2我是从0开始训练的。而不是...
https://github.com/Morizeyao/GPT2-Chinesegithub.com/Morizeyao/GPT2-Chinese 1.整体思路 传闻GPT2的生成式任务效果不错,所以手动实现验证一下。首先使用的是GPT2-Chinese的项目,使用wiki中文通用语料训练了一个通用语言模型,果然还是小马拉大车,训练的比较慢,使用训练之后的通用语言模型在 GPT2-chitchat的基...
GPT2-Chinese Description Chinese version of GPT2 training code, using BERT tokenizer or BPE tokenizer. It is based on the extremely awesome repository from HuggingFace teamTransformers. Can write poems, news, novels, or train general language models. Support char level, word level and BPE level....
Chinese version of GPT2 training code, using BERT tokenizer or BPE tokenizer. It is based on the extremely awesome repository from HuggingFace team Transformers. Can write poems, news, novels, or train general language models. Support char level, word level and BPE level. Support large training...