jieba
“结巴”中文分词:做最好的 Python 中文分词组件
“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.
完整文档见 README.md
GitHub: https://github.com/fxsjy/jieba
特点
- 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
- 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
jieba常用函数
# jieba.lcut(s) 精确模式,返回一个列表类型的分词结果,没有冗余jieba.lcut("语雀一只能言善语的云雀")>>>['语雀', '一', '只能', '言善语', '的', '云雀']# jieba.lcut(s, cut_all=True) 全模式,返回一个列表类型的分词结果,存在冗余jieba.lcut("语雀一只能言善语的云雀", cut_all=True)>>>['语', '雀', '一只', '只能', '能言善', '言善语', '的', '云雀']# jieba.lcut_for_search(s) 搜索引擎模式,返回一个列表类型的分词结果,存在冗余jieba.lcut_for_search("语雀一只能言善语的云雀")['语雀', '一', '只能', '言善语', '的', '云雀']# jieba.add_word(w) 向分词词典增加新词wjieba.addword("蟒蛇语言")