2. 模型设计 模型的上游采用Bert,采用最普通的序列标注的方式,即在 token-level 进行多标签分类。 另一方面,为了解决实体重叠的问题,使用Sigmoid代替SoftMax。 此外,我们没有使用crf层,在原论文中也没有使用crf层。这样做的原因主要是因为主动学习是为了挑选出最有标注价值的数据,而不是为了追求模型的准确率。crf层...
CCKS2019中文命名实体识别任务。从医疗文本中识别疾病和诊断、解剖部位、影像检查、实验室检验、手术和药物6种命名实体。现已实现基于jieba和AC自动机的baseline构建、基于BiLSTM和CRF的序列标住模型构建。bert的部分代码主要源于https://github.com/charles9n/bert-sklearn
pytorch-sequencelabeling是一个支持softmax、crf、span等模型,只依赖pytorch、transformers、tensorboardX和numpy,专注于序列标注(命名实体识别、词性标注、中文分词)的轻量级自然语言处理工具包。 目录 数据 使用方式 paper 参考 Reference 数据 数据来源 免责声明:以下数据集由公开渠道收集而成, 只做说明; 科学研究、商用...