传统的基于字级别的NER往往会存在这个问题,Lattice LSTM基于这个考虑在NER的过程中引入了词表的知识,保证模型尽可能免受这个问题的干扰。下边我们来看看它是怎么做的吧。 2. Lattice LSTM的原理 2.1 直观感受Lattice LSTM原理 图2 Lattice LSTM Structure 可以看到,总体上Lattice LSTM也是基于字级别进行的,但是它同时...
今天要跟大家分享的是西湖大学张岳教授2018年发表在顶会ACL上的一篇中文实体识别论文Lattice LSTM。分享这个工作主要原因是:这个工作本身质量比较高,可以说是利用词汇增强中文NER的开篇之作,并且思路清晰,创新有理有据。 论文名称:《Chinese NER Using Lattice LSTM》 论文链接:arxiv.org/pdf/1805.0202 代码地址:https...
简介: Lattice LSTM模型是基于词汇增强方法的中文NER的开篇之作。在该模型中,使用了字符信息和所有词序列信息,具体地,当我们通过词汇信息(词典)匹配一个句子时,可以获得一个类似Lattice的结构。这种方式可以避免因分词错误导致实体识别错误,在中文NER任务上有显著效果。
对于中文命名实体是识别,考虑到实际生产应用,本文主要针对Lattice-LSTM模型的弊端(复杂的模型结构和计算效率低),提出了一种简洁而有效的方法,即将字符符号信息合并到字符向量表示中。这样,我们的方法可以避免引入复杂的序列建模体系结构来对词汇信息进行建模。相反,它只需要微调神经序列模型的字符表示层。通过在四组中文基...
latticeLSTM的输入有两部分,一个是子词 wb,ew_{b,e...,底部的Bi-LSTM,用于为顶部的Bi-LSTM对应位置生成一个权重,从而使顶部Bi-LSTM对于输入句子中的不同字符,权重是不同的。 底部Bi-LSTM的输入是每个字符对应的特征向量,计算过程如下 [论文解读] IJCAI2019: CNN-Based Chinese NER with Lexicon Rethinking...
医疗命名实体识别N-grams新词发现Lattice-LSTM在医疗命名实体识别中,由于存在大量医学专业术语和语料中语言不规范的原因,识别的准确率不高.为了识别未登录的医学术语和应对语言不规范问题,提出一种基于N-grams新词发现的Lattice-LSTM的多粒度命名实体识别模型.在医疗对话语料中使用N-grams算法提取新词并构造一个医疗相关的...
paper: https://arxiv.org/pdf/1805.02023.pdf code:https://github.com/jiesutd/LatticeLSTM 前言 NER(命名实体识别)是信息抽取的一个基础任务,常用的做法是character-based和word-based,其中基于字符的方法是每个字符会输出一个实体标签,... 查看原文 Chinese NER Using Lattice LSTM-阅读总结 code:https://...
近日,来自新加坡科技设计大学的研究者在 arXiv 上发布了一篇论文,介绍了一种新型中文命名实体识别方法,该方法利用 Lattice LSTM,性能优于基于字符和词的方法。与基于字符的方法相比,该模型显性地利用词和词序信息;与基于词的方法相比,lattice LSTM 不会出现分词错误。这篇论文已被 ACL 2018 接收。作为信息抽取...
这是一篇2018年发表于 ACL(自然语言处理顶会) 的论文,文中提出了一种基于格子(Lattice)结构的LSTM模型,用于优化中文的命名实体识别。具体方法结合了字序列和词序列两种方式(考虑可能出现的各种分词情况)。相对于基于"字序列”的方法,模型能兼顾词间关系;相对于”词序列“的方法,模型不受分词错误的影响。门控单元让...
本文研究了lattice-structured LSTM模型用来做中文的NER,在character-based的序列标注的模型上改进得到的,在character-based模型中的每个character cell vector通过词向量输入门的控制引入以当前字符结束的在词表中出现的所有词的word cell vector得到新的character cell vector,用新的character cell vector得到每个字符的hidde...