距离上一次写文已经快三个月了,今天终于迎来了我的爬虫终章~
我的工作中,有一部分内容是每月从网站上下载资料,然后保留源格式复制到Word文档,用指定编号命名。有时候是几条,有时候十几条。从上一任交接到我手里,这活一直是手动重复操作——既枯燥又没有技术含量。
但在AI模型和智能体发展的背景下,我突然意识到:这完全可以用AI来实现。虽然过程中走了不少弯路,但最终我找到了方法。下面分享一下我的思路和实践过程——即使你是编程小白,也能参考着做。

处理二级网页
如果内容在二级网页,告诉AI超链接位置,或者直接截图一级网页表格,并用自然语言描述需求。例如,我的网页表格列出了日期、编号、标题等信息,我告诉AI:
我想抓取指定日期、指定编号的内容,标题有二级网页链接,进入二级网页后保留源格式复制到Word文档。


python-docx,结果内容格式丢失(标题、超链接、表格都没了)。我再次提出需求:保留源格式。AI就改用pywin32和pyautogui方案,完美满足了我的需求。注:
国内可以用豆包,代码比较花哨但能用;条件允许的,推荐ChatGPT,代码简洁、效果好。我用的是每日免费额度,用完24小时恢复,很适合小白尝试。
如果你的工作也有重复、枯燥的复制粘贴操作,完全可以尝试用代码解放双手!
你可以在评论区分享你的实践经验,也欢迎告诉大家你用AI编程的成果,让更多人有勇气动手~
回头看,最初我的方向完全错了。
一开始,我找了几本Python书,想从头学起,然后学网络爬虫。我尝试自己写requests访问网页,结果网页是动态的,又开始学Selenium。看了几本书之后,我发现自己写不出完整代码。幸好这时我已经在用ChatGPT自然语言交互,学会了如何描述需求、提供关键信息。
我曾想一步到位,但尝试多次无果,最终果断放弃。手动处理文档几次后,我突然想到:手动做的事情,也可以用代码完成!
哈哈,是不是有点笨呢?
好在我想到了两步实现法,还是要给自己点个赞:人到中年,又掌握了一项技能,真棒!