Python学习【121】:python爬取微信公众号的文章
Python学习
学前花絮
我们已经持续写了多篇关于python爬虫的文章,并对合规性和数据安全进行了探讨。那么用python爬虫爬取自己发布的公众号文章,应该是合法合规的吧?答案是肯定的,但微信平台对于批量爬取文章还是有些限制的,需要注册企业服务号,而且有300元的费用。对于大多数自媒体创作人员来说,基本都属于个人订阅号。只能手动添加自己文章的url链接地址进行爬取了。python爬取微信公众号的文章
2.1 快速验证自己的账号主体类型
登录微信公众平台→ 左侧【设置与开发】→【公众号设置】→ 顶部【主体信息】,看「主体类型」:显示「企业 / 个体工商户 / 社会组织」→ 未认证,可付费认证解锁接口。如果你的账号是个人订阅号(大多数自媒体创作者),按微信规则,永久无法通过官方 API 调用拉取文章接口(报 48001),只能用合规的非接口方案获取文章,下面给出一套直接能用的完整流程,兼顾单篇与批量需求,零成本且不用改代码。2.2 官方平台手动导出(零成本,适合少量文章)
适合需要快速获取 10 篇以内文章的场景,步骤极简:登录微信公众平台(mp.weixin.qq.com)→ 左侧【素材管理】→【图文素材】,可看到所有已发布图文;单篇文章:复制原文链接,浏览器打开后右键【另存为】→ 选 “网页,全部”,保存为 HTML,可直接查看正文或转 Markdown;批量标题 / 链接:勾选多篇图文,批量复制标题与链接,粘贴到 Excel 整理。2.3 第三方合规工具批量导出(免费,适合大量文章)
推荐用 “壹伴”(yiban.io),个人号免费版足够用,一键导出所有文章(含标题 / 链接 / 正文 / 封面),步骤:浏览器安装壹伴插件(支持 Chrome/Edge),注册并登录;绑定你的个人订阅号(授权后仅读取文章,无群发 / 修改权限,安全合规);进入壹伴后台→【文章管理】→【历史文章】,选择导出格式(Excel/Markdown),点击【批量导出】,等待 5-10 分钟即可下载;导出的文件可直接用 Excel 打开,或用 Markdown 编辑器(如 Typora)查看正文,支持批量复制到本地归档。2.4 Python代码辅助获取(合规无风险)
1.获取Excel文件
以上仅以自己的2篇文章示例,“正文”一项因为显示的局限,打开后确实是整篇文章。可以在列表中加入多篇文章。获取word文档
尽管上面的Excel文件中“正文”确实包含了文章的全部内容,但毕竟不方便查看和修改。处理成word文档:在计算机浏览器找到相应的目录,找到word文档,确实已经导入成功了。三、小结
用python爬取自己微信公众号的文章,有什么意义呢?我想有两方面的价值。一是练习python爬取技术,二是对于自己文章的归纳整理。特别是有多个自媒体平台的朋友,可以一文多投,或者说经过一段时间的沉淀之后,重新梳理文章内容再发。