NLP自然语言处理结巴(Jieba)分词组件易语言源码特点
支持四种分词模式

精确模式,试图将句子最精确地切开,适合文本分析
全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
自定义长度模式,自定义分词最大长度,适合灵活场景。
主要功能
Jieba.Cut()方法接受两个参数

[文本型] sentence 待分词的字符串
[逻辑型] hmm 是否使用 HMM 模型处理未登录词

调试输出 (Jieba.Cut (“我来到北京清华大学,台中”, 假))
输出结果:我/来到/北京/清华大学/,/台/中
Jieba.CutAll()方法接受一个参数

[文本型] sentence 待分词的字符串

调试输出 (Jieba.CutAll (“我来到北京清华大学,台中”))
输出结果:我/来到/北京/清华/清华大学/华大/大学/,/台中
Jieba.CutHMM()方法接受一个参数

[文本型] sentence 待分词的字符串

调试输出 (Jieba.CutHMM (“我来到北京清华大学,台中”))
输出结果:我来/到/北京/清华大学/,/台中
Jieba.CutForSearch()方法接受两个参数

[文本型] sentence 待分词的字符串
[逻辑型] hmm 是否使用 HMM 模型处理未登录词

调试输出 (Jieba.CutForSearch (“我来到北京清华大学,台中”))
输出结果:我/来到/北京/清华/华大/大学/清华大学/,/台中
Jieba.CutSmall()方法接受两个参数

[文本型] sentence 待分词的字符串
[整数型] max_word_len 最大词长限制

调试输出 (Jieba.CutSmall (“我来到北京清华大学,台中”, 1))
输出结果:我/来/到/北/京/清/华/大/学/,/台/中
自定义用户词典
自定义词典示例请看dict/user.dict.utf8

没有使用自定义用户词典时的结果:

令狐冲/是/云/计算/行业/的/专家
使用自定义用户词典时的结果:

令狐冲/是/云计算/行业/的/专家

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系贝贝进行处理。
本站默认解压密码:www.hibbba.com