NLP自然语言处理结巴(Jieba)分词组件易语言源码特点
支持四种分词模式
精确模式,试图将句子最精确地切开,适合文本分析
全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
自定义长度模式,自定义分词最大长度,适合灵活场景。
主要功能
Jieba.Cut()方法接受两个参数
[文本型] sentence 待分词的字符串
[逻辑型] hmm 是否使用 HMM 模型处理未登录词
调试输出 (Jieba.Cut (“我来到北京清华大学,台中”, 假))
输出结果:我/来到/北京/清华大学/,/台/中
Jieba.CutAll()方法接受一个参数
[文本型] sentence 待分词的字符串
调试输出 (Jieba.CutAll (“我来到北京清华大学,台中”))
输出结果:我/来到/北京/清华/清华大学/华大/大学/,/台中
Jieba.CutHMM()方法接受一个参数
[文本型] sentence 待分词的字符串
调试输出 (Jieba.CutHMM (“我来到北京清华大学,台中”))
输出结果:我来/到/北京/清华大学/,/台中
Jieba.CutForSearch()方法接受两个参数
[文本型] sentence 待分词的字符串
[逻辑型] hmm 是否使用 HMM 模型处理未登录词
调试输出 (Jieba.CutForSearch (“我来到北京清华大学,台中”))
输出结果:我/来到/北京/清华/华大/大学/清华大学/,/台中
Jieba.CutSmall()方法接受两个参数
[文本型] sentence 待分词的字符串
[整数型] max_word_len 最大词长限制
调试输出 (Jieba.CutSmall (“我来到北京清华大学,台中”, 1))
输出结果:我/来/到/北/京/清/华/大/学/,/台/中
自定义用户词典
自定义词典示例请看dict/user.dict.utf8
没有使用自定义用户词典时的结果:
令狐冲/是/云/计算/行业/的/专家
使用自定义用户词典时的结果:
令狐冲/是/云计算/行业/的/专家
评论(0)