盘古分词是一个基于.netframework的中英文分词组件。主要功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元分词 盘古分词提供多重输出解决分词粒度和分词精度权衡的问题 中文人名识别 输入:“张三说的确实在理” 分词结果:张三/说/的/...
盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。主要有以下功能: 1、中文未登陆词识别 2、词频优先 3、一元分词,多元分词 4、中文人名分词 5、繁体中文分词 6、英文分词 7、用户自定义规则(字典...
盘古分词可以识别全角的字母和数字 英文分词 英文分词 英文单词通常都是靠空格等符号分割,这个比较简单,盘古分词分英文自然也没有什么问题。 英文专用词识别 一些英文简写是字母符号混合,或者是字母数字混合,这个分词起来就不能按照空格符号这样分割了,对于字母符号混合的如 U.S.A ,只要将这个词录入到字典中,盘古分词...
盘古分词 /// /// 盘古分词 /// /// /// <returns></returns> public static object PanGu(string words) { Analyzer analyzer = new PanGuAnalyzer(); TokenStream tokenStream = analyzer.TokenStream("", new StringReader(words)); Lucene.Net.Analysis.Token token = nu...
详见盘古分词版本功能介绍 - 多元分词 中文人名识别 盘古分词在中文人名识别上较KTDictSeg取得了较大突破,这里简单演示一下中文人名的识别效果 输入:“张三说的确实在理” 分词结果:张三/说/的/确实/在理/ 但是如果输入 “李三买了一张三角桌子” 分词结果:李三/买/了/一张/三角/桌子/ ...
PanGuSegment 这个是盘古分词的组件包,包括 PanGu.dll,盘古分词的核心组件DictManage.exe 字典管理工具Demo.exe 分词演示程序PanGu.HighLight.dll 高亮组件 PanGu4Lucene 这个是盘古分词针对 Lucene.net 提供的接口 PanGu.Lucene.Analyzer.dll 盘古分词针对 Lucene.net 的接口组件PanGu.Lucene.ImportTool.exe 示例程序数据...
### 关键词 盘古分词, 中英文分词, 未登录词, 词频优先, 分词歧义 ## 一、盘古分词的技术特点 ### 1.1 盘古分词的概述与核心功能 盘古分词,这款基于.NET Framework构建的中英文分词工具,自问世以来便以其卓越的性能和强大的功能赢得了众多开发者的青睐。它不仅能够高效地处理各种文本数据,还特别针对中文语言的...
盘古分词的核心实现(一)初始化装载词库 盘古分词的核⼼实现(⼀)初始化装载词库盘古分词的核⼼实现,只需要跟踪核⼼的⼏个函数实现即可。1,PanGu.Segment.Init();public static void Init(string fileName){ lock (_LockObj){ if (_Inited){ return;} InitInfinitiveVerbTable();if (fileName == ...
盘古分词使用手册 文件说明 2 PanGuSegment 2 PanGu4Lucene 2 PanGu.dll 调用方法 2 初始化 2 分词 2 配置文件 PanGu.xml 7 高亮组件PanGu .HighLight.dll 调用方法 8 字典管理 8 Demo.exe 11 PanGu4Lucene 调用方法 12 创建索引 12 插入数据 12 对要搜索的词分词 13 搜索 13 PanGu4Lucene 示例 15 PanG...
我们需要对 古分词进行初始化,初始化的调用代码如下: PanGu.Segment.Init (); 或 PanGu.Segment.Init (filename); filename 为pangu.xml 的完整路径名,如 c:\pangu.xml” 分词 Segment segment = new Segment () ; ICollectionWordInfo words = segment.DoSegment(text); 或 ICollectionWordInfo words = ...