这本书我是真的强烈推荐的。
本书讲解了如何使用 Python 来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行交互,处理页面中的验证码问题,以及使用 Scarpy 和 Portia 来进行数据抓取,并在最后使用本书介绍的数据抓取技术对几个真实的网站进行了抓取,旨在帮助读者活学活用书中介绍的技术。
本书适合有一定 Python 编程经验,而且对爬虫技术感兴趣的读者阅读。
本书内容
第1章,网络爬虫简介,介绍了网络爬虫,并讲解了爬取网站的方法。
第2章,数据抓取,展示了如何从网页中抽取数据。
第了章,下载缓存,学习了如何通过缓存结果避免重复下载的问题。
第4章,并发下载,通过并行下载加速数据抓取。
第5 章,动态内容,展示了如何从动态网站中抽取数据。
第6章,表单交互,展示了如何与表单进行交互,从而访问你需要的数据。
第7章,验证码处理,阐述了如何访问被验证码图像保护的数据。
第8章,Scrapy,学习了如何使用流行的高级框架 Scrapy。
第9章,总结,对我们介绍的这些网络爬虫技术进行总结。

获取方式:
点赞+在看
后台回复:“爬虫”