,「py Corrector」是一个中文文本纠错工具。支持中文音似、形似、语法错误修正,基于python3开发。 「py Corrector」实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多个模型的文本纠错,并在SigHAN数据集评估各模型的效果。 项目介绍 中文文本纠错任务,常见错误类型: 当然,针对不同的业务场景,这些...
以上方图8为例,第一条样例是把日本的地名[绳文杉]错纠成[绳文彬],这是因为模型不具备绳文杉是个地名的知识,而[文彬]的字词组合在模型输出中概率更高;第二条样例是漏纠了[格得战记]的错误,正确的作品名是[格德战记],这是因为模型学习语料中没有覆盖这个作品名称。为了解决实体误纠、漏纠的问题,我们训练了命...
这个模型还是比较大的,看起来是内存不足,可能和本地环境进程较多有关系,建议如果本地环境内存不足可以...
macro-correct是一个只依赖pytorch、transformers、numpy、opencc的文本纠错(CSC, 中文拼写纠错; Punct, 中文标点纠错)工具包,专注于中文文本纠错的极简自然语言处理工具包。使用大部分市面上的开源数据集构建生成的混淆集,使用人民日报语料&学习强国语料等生成1000万+训练数据集来训练模型; 支持MDCSpell、Macbert、ReLM、...