NLP自然语言处理结巴(Jieba)分词组件[易语言源码]-贝贝吧

NLP自然语言处理结巴(Jieba)分词组件易语言源码特点
支持四种分词模式

精确模式，试图将句子最精确地切开，适合文本分析
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词
自定义长度模式，自定义分词最大长度，适合灵活场景。
主要功能
Jieba.Cut()方法接受两个参数

[文本型] sentence 待分词的字符串
[逻辑型] hmm 是否使用 HMM 模型处理未登录词

调试输出 (Jieba.Cut (“我来到北京清华大学，台中”, 假))
输出结果：我/来到/北京/清华大学/，/台/中
Jieba.CutAll()方法接受一个参数

[文本型] sentence 待分词的字符串

调试输出 (Jieba.CutAll (“我来到北京清华大学，台中”))
输出结果：我/来到/北京/清华/清华大学/华大/大学/，/台中
Jieba.CutHMM()方法接受一个参数

[文本型] sentence 待分词的字符串

调试输出 (Jieba.CutHMM (“我来到北京清华大学，台中”))
输出结果：我来/到/北京/清华大学/，/台中
Jieba.CutForSearch()方法接受两个参数

[文本型] sentence 待分词的字符串
[逻辑型] hmm 是否使用 HMM 模型处理未登录词

调试输出 (Jieba.CutForSearch (“我来到北京清华大学，台中”))
输出结果：我/来到/北京/清华/华大/大学/清华大学/，/台中
Jieba.CutSmall()方法接受两个参数

[文本型] sentence 待分词的字符串
[整数型] max_word_len 最大词长限制

调试输出 (Jieba.CutSmall (“我来到北京清华大学，台中”, 1))
输出结果：我/来/到/北/京/清/华/大/学/，/台/中
自定义用户词典
自定义词典示例请看dict/user.dict.utf8

没有使用自定义用户词典时的结果:

令狐冲/是/云/计算/行业/的/专家
使用自定义用户词典时的结果:

令狐冲/是/云计算/行业/的/专家

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系贝贝进行处理。
本站默认解压密码：www.hibbba.com

NLP自然语言处理结巴(Jieba)分词组件[易语言源码]

评论(0)

提示：请文明发言取消回复

文章展示

微博视频无水印解析[易语言源码]

已知三点求夹角[易语言源码]

类组件拖放对象[易语言源码]

EXUI都市天际线MOD管理V1.0[易语言源码]

libzip压缩解压模块[易语言源码]

exui登录加载UI[易语言源码]

批量pdf水印加图片后导出自由调整图片大小位置[易语言源码]

美容美发的后台管理[易语言源码]

NLP自然语言处理结巴(Jieba)分词组件[易语言源码]

相关文章

评论(0)

提示：请文明发言 取消回复

文章展示

提示：请文明发言取消回复