8. LSTM的单元结构图和6个公式要记住 9. 有几种Attention, Attention和self-Attention是具体怎么实现的,对应什么场景 10. BERT的模型架构,多少层,什么任务适合bert,什么任务不适合,应用在你写的项目改怎么做 11. tensorflow手写一个卷积代码, BILSTM + CRF模型的原理,记住常用基础api(比如jieba添加默认词典api,分...
本发明公开了一种基于Word2Vec‑BiLSTM‑CRF的法律领域的命名实体识别方法,具体包括以下步骤:获取法律领域的原始数据并进行数据的预处理,获得的训练语料数据;将获得的训练语料数据输入Word2Vec算法结合CBOW模型,从而得到针对于法律领域的词向量;将预处理获取的训练语料数据,结合模板匹配和中文语料的顿等模式进行标注,...
10.构建法律领域的特定停用词表,利用jieba、ltp中文分词工具对步骤a中获得的训练语料数据进行分词、去停用词;使用word2vec算法结合cbow模型将词汇包含的语义信息转换为n维词向量,得到法律领域的特定词向量。 11.与现有技术相比,本发明基于word2vec ‑ bilstm ‑ crf的法律领域的实体抽取方法的有益效果是:识别法律...
CCKS2019中文命名实体识别任务。从医疗文本中识别疾病和诊断、解剖部位、影像检查、实验室检验、手术和药物6种命名实体。现已实现基于jieba和AC自动机的baseline构建、基于BiLSTM和CRF的序列标住模型构建。bert的部分代码主要源于https://github.com/charles9n/bert-sklearn
本发明公开了一种基于Word2Vec和Query log抽取关键词方法,涉及信息处理领域.该方法包括:S1,构建目标领域的特定词表;S2,获取文档集合中每个文档的候选关键词;S3,获取每个所述候选关键词的若干维的词向量;S4,计算任意一个候选关键词L的词向量与所述中心向量的余弦相似度,判断候选关键词L是否出现在特定词表中,如果出...
git config --global user.name userName git config --global user.email userEmail 分支1 标签0 fordaiUpdate LICENSE446583e5年前 4 次提交 提交 data Initial commit 5年前 preprocessing Initial commit 5年前 word2vec_bilstm_crf Initial commit ...
CNN+BiLSTM 在一些任务当中,会选择在卷积层后加上一层LSTM或BiLSTM(反过来则不行),用于增强模型对语义的理解。CNN负责提取文本的特征,而BiLSTM负责理解句子的语义信息。当CNN融合了循环神经网络时,就是结合了这两者的功能,往往效果会有所提升。 PS:不要想着拿TextCNN去融合BiLSTM,不是说不能融合,是没有必要。