精品为您呈现,快乐和您分享!

移动端

收藏本站

OK下载站

当前位置: 首页 > 软件下载 > 编程开发

Jcseg(Java中文分词器)v2.6.2官方版

Jcseg(Java中文分词器)v2.6.2官方版

类型:编程开发 语言:简体

大小:4.9M 更新时间:2020-08-28

推荐指数:

应用简介


Jcseg是一个基于mmseg算法的轻量级Java中文分词器。它还集成了关键词提取、关键短语提取、关键句提取、文章自动摘要等功能。它还提供基于Jetty 的Web 服务器以方便主要语言。直接http调用,同时还提供了最新版本的lucene、solr和elasticsearch搜索分词接口。









Jcseg是一个基于mmseg算法的轻量级Java中文分词器。它还集成了关键词提取、关键短语提取、关键句提取、文章自动摘要等功能。它还提供基于Jetty 的Web 服务器以方便主要语言。直接http调用,同时还提供最新版本的lucene、solr和elasticsearch搜索分词接口!



Jcseg(Java中文分词器)



特征



Jcseg核心功能:



中文分词:mmseg算法+Jcseg独创优化算法,七种分词模式。



关键词提取:基于textRank算法。



关键词提取:基于textRank算法。



关键句提取:基于textRank算法。



文章自动摘要:基于BM25+textRank算法。



自动词性标注:基于词库+(统计歧义消除方案),目前效果还不是很理想,不推荐用于对词性标注结果要求较高的应用。



命名实体标注:基于词库+(统计消歧方案)、电子邮件、网站、大陆手机号码、地名、人名、货币、日期时间、长度、面积、距离单位等。



Restful api:嵌入jetty提供了绝对高性能的服务器模块,包括功能齐全的http接口,标准化的json输出格式,方便各种语言的客户端直接调用。



Jcseg中文分词:



七种分割模式:



简单模式:FMM算法,适合对速度要求较高的场合。



复杂模式:MMSEG四种过滤算法,歧义去除率高,分词准确率达到98.41%。



检测模式:仅返回词汇表中已有的条目,非常适合某些应用。



大多数模式:细粒度分割,专为检索而设计。除中文处理(不具备中文姓名、数字识别等智能功能)外,其他模式与复杂模式一致(英文、组合词等)。



分隔符模式:根据给定的字符分割条目。默认为空格。它用于特定情况。



NLP模式:继承于复杂模式,改变了数字、单位等条目的组合,增加了对电子邮件、大陆手机号码、网址、人名、地名、货币等的识别和返回以及无限类型的自定义实体。



n-gram 模式:CJK 和拉丁字符的通用n-gram 分段实现。



分词特点:



支持自定义词典。词库文件夹下可以随意添加/删除/更改词库及词库内容,词库是分类的。



支持加载多个词典目录。使用';'在配置lexicon.path 中分隔多个词典目录。



词库分为简体/繁体/简繁混合词库:可专门适配简体分词、繁体分词、简体与繁体混合分词,并可利用下文提到的同义词实现简体与繁体中文的相互检索, Jcseg同时提供了两个简单的词典管理工具,可以进行简体中文和繁体中文的转换以及词库的合并。



中英文同义词添加/同义词匹配+中文词条拼音添加。该词典整合了《现代汉语词典》和cc-cedict词典中的词条,词条根据cc-cedict词典标注拼音,同义词标注《汉语同义词词典》(尚未完成) )。更改jcseg.properties配置文件可以在分词时为分词结果添加拼音和同义词。



中文数字和中文分数的识别,例如:‘这里有一百五十人,四十人中有一人。 '中的'一百五十'和'一百四十'。并且Jcseg会自动将其转换为阿拉伯数字并添加到分词结果中。如:150、1/40。



支持中英混合词、英汉混合词的识别(维护词库可识别任意组合)。例如:B超、X光、卡拉OK、七都KTV、机器猫。



支持英文的类中文分词,同时还使用mmseg算法消除歧义。例如:“openarkcompiler”会被分段为:“openarkcompiler”,这个功能也可以关闭。



更好的拉丁语支持,识别电子邮件、域名、小数、分数、百分比、字母和标点符号组合(例如C++、c#)。



自定义分段保留标点符号。例如:retain,可以识别kr等复杂术语。



复杂英文切分结果二次切分:可以保留原来的组合,同时避免复杂切分带来的搜索命中率下降。例如QQ2013将被分割为: qq2013/qq/2013, chenxin619315@gmail.com 将被分割为: chenxin619315@gmail.com/chenxin/619315/gmail/com。



支持阿拉伯数字/小数/中文数字的基本词单位识别,如2012、1.75米、38.6、50%off,Jcseg将其转换为“50%off”并添加到分词结果中。



智能圆角、半角、英文大小写转换。



特殊字母识别:例如:、;特殊号码识别:例如:、。



配对标点内容提取:例如:最好的Java书籍《Java编程思想》、《想象力杯黑客技术大赛》,内容以“、”、“、”标点符号标注。 (从1.6.8版本开始支持)。



智能中文名/外文译名识别。中文姓名识别准确率达94%以上。 (中文名字可以维护lex-lname.lex、lex-dname-1.lex、lex-dname-2.lex来提高准确率),(引入规则和词性后,识别准确率将达到98%以上) )。



自动中英文停用词过滤功能(该选项需要在jcseg.properties中开启,lex-stopwords.lex为停用词词典)。



词典更新自动加载功能启动一个守护线程定期检测并加载词典更新(注意需要对对应词典目录下的lex-autoload.todo文件有写权限)。



自动词性标注(目前基于同义词库)。



自动实体识别,默认支持:邮箱、网站、大陆手机号码、地名、人名、货币等;可以在词汇表中自定义各种实体并在分段期间返回。