使用BERT-BILSTM-CRF进行中文命名实体识别。. Contribute to taishan1994/BERT-BILSTM-CRF development by creating an account on GitHub.
GitHub is where people build software. More than 150 million people use GitHub to discover, fork, and contribute to over 420 million projects.
这个系列我们来聊聊序列标注中的中文实体识别问题,第一章让我们从当前比较通用的基准模型Bert+Bilstm+CRF说起,看看这个模型已经解决了哪些问题还有哪些问题待解决。以下模型实现和评估脚本,详见Github-DSXiangLi/ChineseNER NER问题抽象 实体识别需要从文本中抽取两类信息,不同类型的实体本身token组合的信息(实体长啥样)...
NER本质还是对字分类,所以,我们只需要字向量。在这里,我使用了科大讯飞的chinese_wwm_ext_pytorch的中文预训练bert模型来获取字向量。 模型下载地址:https://github.com/ymcui/Chinese-BERT-wwm 字向量构建: class GetPretrainedVec: def __init__(self): self.bert_path = get_chinese_wwm_ext_pytorch_path(...
本程序数据来源与之前NER任务相同,地址:https://github.com/luopeixiang/named_entity_recognition[2]. 为了能够使用seqeval工具评估模型效果,将原始数据中“M-”,"E-"开头的标签处理为“I-”. 程序结构 程序设计结构依然像以往的形式,包括如下三个模块: ...
https://github.com/hanxiao/bert-as-service 启动bert-serving-server 打开服务器,在BERT文件夹(chinese_L-12_H-768_A-12)的根目录下,打开终端,输入命令: bert-serving-start -pooling_strategy NONE -max_seq_len 130 -mask_cls_sep -model_dir chinese_L-12_H-768_A-12/ -num_worker 1 ...
更多预训练模型参考:https://github.com/ymcui/Chinese-BERT-wwm 自带数据训练评价 数据为中国日报的NER语料库,代码自动下载。 训练集、测试集和验证集的存储格式: train_x: [char_seq1,char_seq2,char_seq3,….. ] train_y:[label_seq1,label_seq2,label_seq3,….. ] ...
代码地址:https://github.com/taishan1994/pytorch_bert_bilstm_crf_ner 数据预处理 这里我们以简历数据集为例,数据位于data/cner/raw_data下面,我们先看看初始的数据是什么样子的: 常B-NAME建 M-NAME 良E-NAME , O 男O , O1O9O6O3O 年O 出O ...
https://github.com/hanxiao/bert-as-service 作为服务的命名是:bert-base-serving-start,同样的,你可以先使用-help查看相关帮助 bert-base-serving-start -help 作为命名实体识别任务的服务,这两个目录是你必须指定的:ner_model_dir, bert_model_dir
Github(最终使用):https://github.com/HandsomeCao/Bert-BiLSTM-CRF-pytorch 1.原始数据 代码中应用到的数据为医药命名体识别数据,已经处理成了BIO格式,其中B、I包含6个种类,分别为DSE(疾病和诊断),DRG(药品),OPS(手术),LAB( 检验),PAT(解剖部位)、INF(检查)。