中文拼写纠错任务一般叫做Chinese Spelling Check(CSC),这个任务通常不涉及添/删字词,只涉及替换,所以...
拼写纠错(CSC)通常不涉及字词增删,仅替换错误字符,输入输出等长,研究历史悠久,多利用BERT类模型解决,进展集中在数据自动生成与模型优化。语法纠错(CGEC)需要增删字词,非等长纠正,更复杂,近年来随着NLP技术发展受到关注,主流数据集包括北大孙薇薇老师的NLPCC18-Task2及北语的CGED系列。CGEC研究主要集...
苏大和达摩院有着密切的合作,在中文文本纠错领域有着比较深厚的研究基础,因此就follow了苏大 zhangyue大...
不过CSC也是Cambridge trust的一种,有回国发展意向的同学可以着重考虑。至于老师的经费情况,这个只能结合每年的情况和每位老师请教了。因为老师们的经费也不稳定,每年能拉到的funding也不同,可能前几年还有大量经费结余,由于去年一下子招了两三个PhD导致钱全花光光了(血泪经验)。 套磁& RP: 套磁肯定是非常重要的,...
自然语言文本中经常会出现一些拼写错误(typo),在中文文本里即所谓的错别字,中文拼写纠错(Chinese Spelling Correction,CSC)可以对中文文本中的 typo 进行检测和纠正。拼写纠错在诸多 NLP 任务和应用中都有重要作用,如 OCR、语音识别和搜索引擎等。在 NLP 任务和日常工作生活场景中,中文文本中的 typo 主要是拼音和字...
在class前面加入一组prompt连续向量,续可学的prompt具体又可分为unified context和class-specific context (CSC)两种。实验发现class-specific context (CSC)这种类型的prompt对细粒度图片分类任务更有用,而在一般的数据集上,unified context效果更好。 Contribution: ...
CSC是和CSR相对应的一种方式,即按列压缩的意思。 以上图中矩阵为例: Values: [1 5 7 2 6 8 3 9 4] Row Indices:[0 2 0 1 3 1 2 2 3] Column Offsets:[0 2 4 7 9] 稀疏矩阵的实现: /* * @describe: sparse matrix * @date: 2018/02/28 ...
这种方法说明了fine-tuning对于进行CSC(Chinese spelling error correction)任务的模型的重要性,并且证明了用来进行fine-tuning的数据集的规模越大,fine-tuning之后的模型在CSC任务中的效果也会越好。 (3) 将Soft-Masked BERT模型框架中分为错误探查网络Detection Network与纠错网络Correction Network两部分,并且将两部分...
基于此,论文结合了预训练语言模型BERT,并利用GCN来建立单词之间的相互依赖,捕捉拼音和字形的相似性。GCN还被用在关系抽取,给多标签任务建立标签之间的关系上,这些任务中graph的object都是语义相关的;但是,CSC中graph的相似单词都是语义不同的。 模型 SpellGCN的结构...
ERNIE-CSC 在 ERNIE 预训练模型的基础上,融合了拼音特征的端到端中文拼写纠错模型,在 SIGHAN 数据集上取得了 SOTA 的效果。首个中文多轮开放域对话预测接口;支持生成式问答、写诗等趣味应用。开放域对话使用的 PLATO-MINI 模型在十亿级别的中文对话数据上进行了预训练,闲聊场景对话效果显著。生成式问答、写诗基于...