系统的核心是先将PDF源文档转换为一种中间XML文档,再利用文本特征、位置特征及显示特征对中间XML文档进行基于正则表达式的信息抽取。本系统把科技论文的PDF文档解析转换为符合NLM DTD要求的XML文档,从而实现科技论文格式标注向语义标注的转换。 展开 关键词: 科技论文;信息抽取;XML;NLM DTD;PubMed Central ...