基于统计的方法一般采用人工标注的句子级的标注语料进行训练,但是这种方法往往忽略了已有的经过多年积累的人工标注的词典信息。这些信息尤其是在面向跨领域时,由于目标领域句子级别的标注资源稀少,从而显得更加珍贵。因此,如何充分且有效地在基于统计的模型中利用词典信息是一个非常值得关注的工作。最近已有部分工作对它进行...
中文分词有三种截然不同的分词方法,每一种方法都对应了一种研究领域。 1. 基于词典的分词 2. 基于统计的分词 3. 基于语法的分词 我所了解的,及当前搜索引擎广为采用的是第一种分词方法,有一个包含了很多词语的词典,你拿着一句话挨着到词典里去匹配,匹配上就算一个词。比如 “山东经济学院”,首先匹配“山”...
面向军事领域的中文分词技术研究 在分词模型跨领域分词时,其性能会有明显的下降.由于标注军队遗留系统开发文档语料的工作比较复杂,本文提出n-gram与词典相结合的中文分词领域自适应方法.该方法通过提... LI Jian-long,WANG Pan-qing,HAN Qi-yu - 《计算机与现代化》 被引量: 0发表: 2018年 基于自主学习的专业...
中文分词模型词典融入方法比较 作者:冯雪中文分词条件随机场柱搜索领域自适应 摘要:基于统计的方法一般采用人工标注的句子级的标注语料进行训练,但是这种方法往往忽略了已有的经过多年积累的人工标注的词典信息。这些信息尤其是在面向跨领域时,由于目标领域句子级别的标注资源稀少,从而显得更加珍贵。因此,如何充分且有效地在...
中文分词模型词典融入方法比较 开具论文收录证明 >> 页面导航 摘要 著录项 相似文献 相关主题 摘要 基于统计的方法一般采用人工标注的句子级的标注语料进行训练,但是这种方法往往忽略了已有的经过多年积累的人工标注的词典信息.这些信息尤其是在面向跨领域时,由于目标领域句子级别的标注资源稀少,从而显得更加珍贵.因此,如...