大家都知道jieba庫是一個很不錯的分詞工具。但自帶的詞庫有兩個不太好的地方:1.當遇到專有詞不能正確斷句;2.生成的詞列表太亂,比如 '的 了 嗯 和'這些無意義的東西。前一種情況,可以用add_word。后一種可以用filter或列表推導式來進行。此文章圖文用了列表推導式,結合any for in的方法,也可用any 加re來實現。西瓜還是哪一個西瓜,是用勺子挖還是水果刀切,用牙簽,不過是仁人智智。
微信扫一扫赞赏作者喜欢作者