关于本书
本书不仅介绍了网络数据采集,也为采集新式网络中的各种数据类型提供了全面的指导。虽然本书用的是 Python 编程语言,里面涉及 Python 的许多基础知识,但这并不是一本Python 入门图书。
如果你不太懂编程,也完全不了解 Python,那么这本书看起来可能有点儿费劲。但是,如果你懂编程,那么书中的内容可以很快上手。附录 A 介绍了 Python 3.x 版本的安装和使用方法,全书将使用这个版本的 Python。如果你的电脑里只装了 Python 2.x 版本,可能需要先看看附录 A。如果你想更全面地学习 Python,Bill Lubanovic 写的《Python 语言及其应用》1 是本非常好的教材,只是书有点儿厚。
附录 C 介绍并分析了几个商业案例以及犯罪事件,可以帮助你了解如何在美国合法地运行网络爬虫并使用数据。技术书通常都是介绍一种语言或技术,而网络数据采集是一个比较综合的主题,涉及数据库、网络服务器、HTTP 协议、HTML 语言、网络安全、图像处理、数据科学等内容。本书尝试涵盖网络数据采集的所有内容。
第一部分深入讲解网络数据采集和网络爬行相关内容,并重点介绍全书都要用到的几个Python 库。这部分内容可以看成这些库和技术的综合参考(对于一些特殊情形,后面会提供其他参考资料)。
第二部分介绍读者在动手编写网络爬虫的过程中可能会涉及的一些主题。不过,这些主题的范围特别广泛,这部分内容也不足以道尽玄机。因此,文中提供了许多常用的参考资料来补充更多的信息。
本书结构组织灵活,便于你直接跳到感兴趣的章节中阅读相应的网络数据采集技术。如果一个概念或一段代码在之前的章节中出现过,那么我会明确标注出具体的位置。一旦你开始采集网络数据,就会感受到浏览器为我们做的所有细节。网络上如果没有HTML 文本格式层、CSS 样式层、JavaScript 执行层和图像渲染层,乍看起来会有点儿吓人,但是在这一章和下一章,我们将介绍如何不通过浏览器的帮助来格式化和理解数据。
这部分内容重点介绍网络数据采集的基本原理:如何用 Python 从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。最终,你将轻松游弋于网络空间,创建出具有域名切换、信息收集以及信息存储功能的爬虫。
说实话,如果你想以较少的预先投入获取较高的回报,网络数据采集肯定是一个值得踏入的神奇领域。大体上,你遇到的 90% 的网络数据采集项目使用的都是接下来的六章里介绍的技术。这部分内容涵盖了一般人(也包括技术达人)在思考“网络爬虫”时通常的想法:
• 通过网站域名获取 HTML 数据
• 根据目标信息解析数据
• 存储目标信息
• 如果有必要,移动到另一个网页重复这个过程
这将为你学习本书第二部分中更复杂的项目奠定坚实的基础。不要天真地认为这部分内容没有第二部分里的一些比较高级的项目重要。其实,当你写自己的网络爬虫时,几乎每天都要用到第一部分的所有内容。
获取方式:
1.点赞+在看
2.后台回复“7”领取