上一篇给大家梳理了人文社科文本分析全流程(数据爬取→数据清洗→词频/情感/主题词分析),今天再来份干货——文本分析全套Python可复制代码,覆盖上一篇提到的核心操作,适配人文社科常见场景(政策文本、新闻、访谈记录等),零基础也能一键运行,不用懂复杂编程,复制粘贴、替换数据就能出结果。
前置准备
先安装所需Python库(复制下面命令,在Python终端执行,一键安装):
pip install scrapy beautifulsoup4 selenium jieba nltk gensim matplotlib pandas numpy snowNLP
✨ 新手提示:文末分享了运行代码库,免费领取!打开即可运行代码~
全套可复制代码(可直接套用)
一、数据爬取(3种工具,新手优先选后两种)
适配人文社科常见场景:静态网页(如新闻、政策文本)、动态网页(如评论、需要翻页的内容),代码可直接复制,替换链接即可。
1. BeautifulSoup(静态网页爬取,新手首选)
用途:爬取静态网页中的文本(如某政策文件、单页新闻)
2. Selenium(动态网页爬取,如评论、翻页内容)
用途:爬取需要登录、滑动、翻页才能加载的文本(如某平台评论、多页新闻)
二、数据清洗(必做,直接复制运行)
用途:清洗爬取的原始文本,去除无效信息,得到干净的可分析文本,适配所有人文社科文本场景。
✨ 新手提示:停用词表,后续分享链接中也有,但也可直接网上搜索“中文停用词表”下载,保存为stopwords.txt,和代码放在同一文件夹即可;也可根据研究主题,在停用词表中添加专属停用词(如研究教育,添加“教育部门”)。
三、分词与词干化(中英文适配)
用途:将清洗后的文本拆分为可分析的词语,中文用jieba,英文用NLTK,代码自动适配。
✨ 小提示:如果分析英文文本,注释中文分词代码,取消英文分词代码的注释即可;中文分词后无需词干化,直接用于后续分析。
四、词频分析(TF/TF-IDF+可视化)
用途:统计高频词,生成词云图、柱状图,直接用于论文、汇报,适配文献综述、政策文本分析等场景。
五、情感分析(中英文适配,可视化)
用途:分析文本情感倾向(正面/负面/中性),生成情感占比图,适配评论、访谈文本等场景。
六、主题词分析(TF-IDF+LDA模型)
用途:挖掘文本潜在主题,适配大规模文本(如多篇文献、政策文本),适合博论、深度综述。
✨ 小提示:LDA模型的主题数量(num_topics)可根据文本数量调整,一般3-8个即可;困惑度越低,说明主题挖掘越精准,若困惑度过高,可调整主题数量或增加文本数量。
新手必看:避坑指南!
避坑1:中文乱码 → 所有代码中encoding均设为"utf-8",图表设置中文字体(SimHei);
避坑2:代码运行失败 → 检查是否安装了所有所需库,或直接用在线运行链接;
避坑3:分词效果差 → 调整停用词表,添加专属停用词,过滤单字;
避坑4:LDA主题不合理 → 调整主题数量(num_topics),增加文本数量,确保文本相关性。
💬最后:配套资源免费领取!!为了方便大家快速上手,我整理了相关配套代码资源,直接复制即可:
链接:https://pan.quark.cn/s/8c6bd7dc61d8
提取码:cREh
欢迎关注「马克图布的科研笔记本」,后续持续分享人文社科科研干货、Python工具用法,一起轻松搞定文本分析、文献综述、论文写作,不用再为编程头疼 ✌️✌️✌️