jcseg是基于 mmseg 算法的一个轻量级 Java 中文分词器,同时集成了关键字提取、关键短语提取、关键句子提取和文章自动摘要等功能。它提供了多种切分模式,包括简易模式、复杂模式、检测模式、检索模式、分隔符模式和 NLP 模式,以满足不同的应用场景需求。可以从官方网站或开源代码托管平台获取 jcseg 的 JAR 包或源代码...
jcseg.icnname=1#-开启中文人名识别lexicon.prefix=lex#-词库文件前缀jcseg.cnmaxlnadron=1#-姓氏修饰词长度,例如:老陈 中的“陈”lexicon.suffix=lex#-词库文件后缀jcseg.mixcnlen=2#-中英混合词最大中文词数,例如:A计划 A后面有两个字“计划”jcseg.nsthreshold=1000000#-姓名成词歧义阕值lexicon.dir=lexicon...
Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene, solr, elasticsearch/opensearch的分词接口!Jcseg自带了一个 jcseg.properties文件用于快速配置而得到适合不同场...
也可以直接使用集成了jcseg的elasticsearch运行包:elasticsearch-jcseg,开封就可以使用。 Jcseg分词服务器: jcseg-server模块嵌入了jetty,实现了一个绝对高性能的服务器,给jcseg的全部Api功能都加上了restful接口,并且标准化了api结果的json输出格式,各大语言直接使用http客户端调用即可。 编译jcseg: 2.3.0之前的版本: mav...
51CTO博客已为您找到关于Java开源中文分词器jcseg的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及Java开源中文分词器jcseg问答内容。更多Java开源中文分词器jcseg相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。
# jcseg function #-正向最大化匹配数目(建议位于4-7之间)。 jcseg.maxlen=10#-开启中文人名识别(1.7.0 后, 0 关闭, 1开启)。 jcseg.icnname=1#-中英混合词最大中文词数,例如:A 计划 A 后面有两个字“计划”。 jcseg.mixcnlen=4#最大的配对标点内容长度。
基于最新版本的elasticsearch-7.2.0和Jcseg-2.4.1。 Happly elasticsearch jcseg!!! 简介 elasticsearch便捷版本,集成了一些常用的插件 暂无标签 Java 发行版 暂无发行版 elasticsearch-jcseg 开源评估指数 生产力 创新力 稳健性 协作 贡献者 软件 贡献者(2) ...
jcseg中文分词器 jcseg 是使用 Java 开发的一款开源的中文分词器, 使用 mmseg 算法. 分词准确率高达 98.4%, 支持中文人名识别, 同义词匹配, 停止词过滤等。 https://gitee.com/lionsoul/jcseg 1. jcseg 支持三种切分模式: (1). 简易模式:FMM算法,适合速度要求场合。
Jcseg is a light weight NLP framework developed with Java. Provide CJK and English segmentation based on MMSEG algorithm, With also keywords extraction, key sentence extraction, summary extraction implemented based on TEXTRANK algorithm. Jcseg had a build-in http server and search modules for lucene...