当前位置：首页>python>Python爬虫实战-网页小说爬取|手把手教会你用Python爬虫下载一本小说(源码可用)

Python爬虫实战-网页小说爬取|手把手教会你用Python爬虫下载一本小说(源码可用)

2026-06-26 09:14:07

哈喽大家好～上一期我们搞定了Python爬虫的基础知识点，从请求网页、解析数据到保存结果，一步步带大家实现了简易爬虫，成功爬取了网页上的基础文本数据。

很多小伙伴在后台留言：“基础会了，能不能教我爬取网页小说？”“追更太麻烦，想把小说下载到本地慢慢看”。

安排！这一期就彻底手把手教学，从数据定位、环境准备，到代码演示、避坑指南，全程无跳过，哪怕是刚学完基础的新手，也能跟着写出属于自己的小说爬虫，实现离线追更自由～

温馨提示：本文仅用于Python爬虫学习交流，爬取的小说仅用于个人离线阅读，请勿用于商业用途，尊重原作者版权哦

爬虫必看注意事项（爬前必看！！！）

爬虫不仅要会写，更要“合规、安全”，很多新手因为忽略这些注意事项，导致IP被封、触犯规则，以下6点必须牢记：

1. 合规性优先（底线不能破）

① 尊重版权：爬取的小说仅用于个人离线阅读，严禁二次传播、商用（如转发、售卖、整理后发布），否则可能面临版权方追责，这是开发者的基本素养。

② 遵守网站规则：访问目标网站时，先查看网站根目录下的「robots.txt」文件（如http://www.xbiquge.la/robots.txt），该文件会明确告知“哪些内容可爬、哪些不可爬”，严格按照规则爬取，不触碰网站禁忌。

③ 规避法律风险：不爬取涉密、违规、低俗内容，不恶意攻击网站服务器，否则可能违反《网络安全法》，承担相应法律责任。

2. 控制访问频率（避免被封IP）

① 添加合理延迟：代码中已添加「time.sleep(1)」，新手不要删除或改得太小（建议1-3秒），模拟正常用户的访问节奏，避免短时间内大量请求给网站服务器造成压力。

② 避免高频重试：如果某一章节请求失败，不要立即反复重试，可增加延迟后再尝试，或跳过该章节（后续手动补充），频繁重试会被网站判定为恶意爬虫。

③ 慎用代理IP：如果需要爬取大量内容，可使用正规代理IP池（避免使用免费代理，多为恶意IP），分散访问压力，降低IP被封风险；新手初期可先不用代理，熟悉流程后再尝试。

3. 模拟正常用户访问（规避基础反爬）

① 携带User-Agent：代码中已配置固定User-Agent，新手可保留；进阶可使用「fake-useragent」库，随机生成不同浏览器的User-Agent，避免被网站识别为爬虫。

② 不伪造关键信息：不随意修改请求头中的Cookie、Referer等信息，除非明确知道其作用，伪造信息可能触发网站反爬机制，导致请求失败。

③ 避免批量请求：不要一次性爬取网站所有章节，可分批次爬取（如每天爬取50章），降低被网站监测到的概率。

4. 数据处理与保存（规范操作）

① 不篡改数据：爬取的小说正文、章节名等内容，不要随意修改、篡改，尊重原作者的创作成果。

② 规范保存格式：建议保存为txt格式（代码中已默认），不随意生成大量垃圾文件，合理管理本地存储，避免占用过多内存。

③ 及时清理缓存：如果多次运行代码，可定期清理生成的txt文件和临时缓存，避免重复爬取和数据冗余。

5. 应对网页变化（灵活调整）

① 定期检查解析规则：免费小说网站的HTML结构可能会更新（如修改标签、类名），如果代码突然爬取不到内容，先检查开发者工具中的数据位置，重新调整解析规则（soup.select、soup.find相关代码）。

② 关注网站状态：如果目标网站出现“无法访问”“需要登录”“验证码”等情况，不要强行爬取，可更换其他结构简单的免费小说网站，避免无效操作。

6. 其他细节注意事项

① 不泄露个人信息：爬取过程中，不要在请求头、代码中添加个人隐私信息（如手机号、身份证号），避免信息泄露。

② 测试环境优先：新手可先在本地测试代码，确认能正常爬取少量章节后，再批量爬取，避免因代码错误导致大量无效请求。

③ 尊重网站运营：如果网站明确禁止爬虫（如页面提示“禁止爬取”），立即停止爬取操作，更换其他合规的学习素材。

一、第一步：找准网页小说的数据藏在哪里

爬取小说的核心，第一步不是写代码，而是找到小说数据的“藏身之处”——很多新手爬不到内容，就是因为没找对真实数据位置，只拿到了网页框架。

1.1 确定小说资源地址

在这，叶子先找到想要爬取的小说网页，并且关注到它的URL地址一栏。

注意到这里的小说地址是这个网站的首页加上书本id

1.2 进入开发者选项

我们找到这个小说页面的网页源码，我们可以右键空白处，鼠标点击检查按钮，或者直接按住键盘的F12键，这样我们就可以进入开发者页面。

1.3 确定小说章节资源地址

通过开发者选项左上角的检查元素按钮，选择一个章节，查看它的具体元素标签，已经它的具体资源地址

这里叶子就点击第一个章节，我们能看到它是由一个div标签包裹，里面是一个a标签，标签内有具体的跳转链接地址以及章节名。

我们要记住这个标签所属div的class属性，方便我们后续拿到这些内容。

1.4 确定小说章节文本内容元素

点击上面的章节链接，我们就能到达对应小说章节的具体内容，查看新跳转出的页面地址，通常是原小说地址加上新的参数拼接而成。

同样进入开发者页面，我们选取具体文本内容去查看，这些都是由div标签包裹，里面具体的文本内容是由p标签包裹。

我们只要拿到这些p标签的内容即可。

二、写代码的前期准备

在写代码之前，我们需要做的基础准备，避免后续出现“代码运行失败”“找不到模块”等问题，一定要检查清楚，不要漏步骤了噢！

2.1. 确认Python环境

首先确保你的电脑已经安装了Python（建议3.6及以上版本，兼容性更好），打开电脑的「命令提示符」（Windows按Win+R，输入cmd回车），输入以下命令，能显示Python版本号，就说明环境正常：

python --version  # 或者 python3 --version（Mac/Linux）

2.2. 核心库介绍（作用+安装）

第三方库	作用	安装命令
requests	发送网络请求，获取网页的源代码（相当于“替我们打开网页”）	pip install requests
beautifulsoup4（简称bs4）	解析网页源代码，从混乱的代码中提取出章节链接、小说正文（相当于“从网页里挑出我们需要的内容”）	pip install beautifulsoup4

安装提示：如果安装失败，把命令里的“pip”换成“pip3”；如果还是失败，检查Python环境是否配置正确，或者重启命令提示符后再尝试

补充库（可选，提升体验）

lxml：解析速度比Python自带的解析器更快，处理复杂网页更稳定，安装命令：pip install lxml（安装后，代码中可替换解析器，提升效率）。
fake-useragent：随机生成浏览器标识，避免被网站识别为爬虫而封禁IP，安装命令：pip install fake\-useragent（应对基础反爬）。

2.3. 配置虚拟环境（可选但推荐）

新手可以直接跳过这一步，但如果后续要爬取更多资源，建议配置虚拟环境，避免不同项目的依赖冲突，操作步骤如下（复制命令依次执行）：

# 1. 创建虚拟环境（Windows命令）python -m venv venv# 2. 激活虚拟环境（Windows命令）venv\Scripts\activate# Mac/Linux激活命令：source venv/bin/activate

如果你用的是Pycharm编辑器，可以直接创建项目的时候选择带有虚拟环境。

四、手把手代码演示

这里，叶子直接把所有的代码写在下面，小伙伴们可以自己去复制运行一下噢。

# 代码演示import requestsfrom bs4 import BeautifulSoup# 目标地址url = "https://www.shuyous.com/book/2513593.html"# 添加请求头相关信息headers = {    "user-agent" :    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/146.0.0.0 Safari/537.36 Edg/146.0.0.0"}# 获取响应response = requests.get(url, headers=headers)# 拿到对应的章节内容soup = BeautifulSoup(response.text, "html.parser")chapter_list = soup.find('div', class_='list').find_all('a')# 先暂时爬3章内容for i in range(3):    # 拿到小说章节标题    chapter_name = chapter_list[i].get_text(strip=True)    # 重新生成一个url    chapter_url = "https://www.shuyous.com" + chapter_list[i].get("href")    # 发送新的请求并拿到响应数据    details_response = requests.get(chapter_url, headers=headers)    details_soup = BeautifulSoup(details_response.text, "html.parser")    content_div = details_soup.find("div", class_="content")    if content_div:        # 拿到对应文字内容标签        p_list = content_div.find_all("p")        # 保存到本地文本        with open(chapter_name + ".txt", "w", encoding="UTF-8") as f:            for p in p_list:                text = p.get_text(strip=True)                f.write(text + "\n")    print(chapter_name + "-- 下载成功")

我们直接运行一下，就可以成功获取到小说内容

我们的本地也保存了这些数据

新手需要注意的点：

修改小说目录页URL：打开你想爬取的小说目录页，复制浏览器地址栏的链接，替换代码中url 的值（比如爬取其他小说，就替换成对应小说的目录页链接）。
修改小说保存文件名：将小说的值改成你想要的名字（比如“三体.txt”），后缀必须是.txt，否则无法正常保存。
代码不可能完全复用：叶子给到的代码只是简单的针对这个小说网页的代码，如果小伙伴们想要爬取其他小说网页的数据，需要看清楚具体的网页地址url以及小说目录地址url的拼接方式，另外，它们存储的元素标签也可能不同，需要按照实际情况去修改。