Chinese NER Using Lattice LSTMaclanthology.org/P18-1144.pdf 1. Intorduction 英文中展现显著效果的LSTM-CRF方法,充分利用了词及序列相关信息,NER问题也通常被视作一个序列标注问题。中文NER问题则通常是以先分段后进行词序列标注来实现命名实体识别,而这种分段出现不准确性则会直接导致实体识别的错误,也因此cha...
本文研究了lattice-structured LSTM模型用来做中文的NER,在character-based的序列标注的模型上改进得到的,在character-based模型中的每个character cell vector通过词向量输入门的控制引入以当前字符结束的在词表中出现的所有词的word cell vector得到新的character cell vector,用新的character cell vector得到每个字符的hidde...
研究者凭经验研究了中文NER的lattice LSTM-CRF表示,发现它与不同领域的word-based 和 character-based LSTM-CRF相比具有始终如一的优越性能。 由于在NER消歧的上下文中选择词典单词的自由度,lattice方法完全独立于分词,但在使用单词信息方面更有效。
然而,基于字符的NER的一个缺点是没有充分利用显式的单词和单词序列信息,这可能是有用的。为了解决这个问题,我们将潜在的单词信息整合到基于字符的LSTM-CRF中,通过使用格结构LSTM来表示句子中的词汇单词。如图1所示,我们通过将一个句子与一个自动获得的大词典进行匹配来构造一个word-character lattice格。As a result...
论文:Chinese NER Using Lattice LSTM 论文链接:https://arxiv.org/abs/1805.02023 论文作者:Yue Zhang∗and Jie Yang∗
github:https://github.com/jiesutd/LatticeLSTM 这篇论文是ner中使用词典的经典之作,虽然已经2022年了,但是仍然我们值得去回味2018年的SOTA之作,毕竟有些思想,不是这时候的单纯的堆资源堆模型可以轻易媲美的。 一. 背景 产生原因&过往方法:以往的ner都是对文本编码后进行crf当作序列标注任务来实现——这是标准的...
NER)得到了广泛的研究,特别是2018年Lattice-LSTM的出现,确定了CNER的发展方向是在字符级模型中融入词汇信息,否则先分词后抽取实体的方式极易引入分词错误.虽然NER的... 贾玥 - 江南大学 被引量: 0发表: 2023年 An Encoding Strategy Based Word-Character LSTM for Chinese NER A recently proposed lattice model...
微博NER 中文简历数据集 Onto Notes MSRA Weibo resume 其中bichar是指使用了bigrams嵌入、softword是指将分词的词嵌入直接在输入层和字向量拼接。 可以看出Lattice LSTM对比另外两种比较简单地利用额外信息的方式有不错的进步,同时对比softword方式,很好地验证了Lattice LSTM结构上的优势,而不仅仅只是额外引入了词信息。
lattice 本意为栅栏,栅格。下图就是一个形象的lattice结构: 3.3 将 lattice 式的DAG 转为flat lattice时,如何保持原序列结构? 在NER 问题中,位置信息是很重要的。flat的作者在transformer 的positional embedding的设计下,想到了能否使用一种各个span的相对编码方式从而保证原序列的结构信息?
We investigate a lattice-structured LSTM model for Chinese NER, which encodes a sequence of input characters as well as all potential words that match a lexicon. Compared with character-based methods, our model explicitly leverages word and word sequence information. Compared with word-based methods...