文本处理在数据清洗、自然语言处理、日志分析等场景中非常常见。以下按功能分类,推荐一些实用的第三方库。
一、字符串处理与正则扩展
regex 、python-slugify、fuzzywuzzy等
二、文本提取与解析
BeautifulSoup4、pyparsing、python-docx等三、文本相似度与匹配
python-Levenshtein、sentence-transformers、rapidfuzz等等四、自然语言处理(NLP)
NLTK、HanLP、textblob等

五、文本分析与统计
collections.Counter(标准库)、wordcloud、numpy / pandas等
大多数场景下,jieba + BeautifulSoup + pdfplumber + rapidfuzz 这四件套可以覆盖 80% 以上的日常文本处理需求。先用标准库 str 方法,不够再引入第三方库。