1. 下载Python
2. 根据你的操作系统选择安装方法:
Windows系统
运行下载的安装程序(.exe文件)
✅ 重要:勾选 "Add Python to PATH"
选择 "Install Now"(默认安装)或 "Customize installation"(自定义安装)
等待安装完成
macOS系统
(推荐):
# 使用Homebrew安装brew install python
Linux系统
# Ubuntu/Debiansudo apt updatesudo apt install python3 python3-pip# CentOS/RHEL/Fedorasudo yum install python3 python3-pip# 或使用dnf(Fedora)sudo dnf install python3 python3-pip
3. 验证安装
python --version# 或python3 --version# 或py --version
4. 安装编辑器(可选但推荐)
5. 测试Python
创建一个简单的测试文件 hello.py:
6.新建项目盘文件夹D:\crawler_project
7. 安装爬虫依赖
py -m pip install aiohttp cchardet lxml sanic
等待安装完成,出现Successfully installed 即为成功。
8、推荐爬虫用IPython
IPython的核心优势、安装方法、基础使用,替代原生 Python 交互终端,大幅提升开发效率。
IPython 是增强版的 Python 交互式解释器,完全兼容原生 Python 语法,在原生 python 命令启动的终端基础上,增加了大量高效、易用的功能,是 Python 开发者调试代码、测试片段的首选工具,也是 Jupyter Notebook 的核心内核。
IPython 写代码的核心好处(新手 + 爬虫场景适配)
相比于系统自带的原生 Python Shell,IPython 针对你的爬虫开发有这些实用优势:
| | |
|---|
| 代码自动补全(Tab 键) | 输入变量 / 函数 / 模块名,按Tab自动补全,减少拼写错误 | 补全aiohttp、random、自定义类方法,快速编写测试代码 |
| 语法高亮显示 | 关键字、字符串、变量用不同颜色区分,可读性远超黑底白字 | 快速区分爬虫请求头、URL、异常信息,排查代码错误 |
| 内置 Shell 命令支持 | 直接在交互环境执行cd/ls/mkdir等系统命令,无需切换 CMD | 快速切换到D:\crawler_project、查看项目文件、安装依赖 |
| 魔法命令(便捷工具) | | 一键运行bee_client.py片段、测试robots.txt解析工具 |
| 完善的历史记录 | 按↑/↓回溯历史代码,支持跨会话保存,支持搜索历史 | 重复测试 UA 随机选取、URL 校验逻辑,无需重复手写代码 |
| 友好的异常提示 | 异常信息分段展示,精准定位错误行,比原生报错更易懂 | |
| 多行代码轻松编辑 | 支持完整缩进、代码块粘贴,不会出现原生终端的格式错乱 | 粘贴完整的RobotsChecker类、UA 池代码,直接测试运行 |
| 变量 / 环境实时查看 | | 查看爬虫的ua_pool、请求头、测试 URL 的校验结果 |
Python 环境正常,以管理员身份打开 CMD,切换到项目目录后执行安装命令:
1. 切换路径
2. 安装命令(使用清华镜像,加速下载)
py -m pip install ipython -i https://pypi.tuna.tsinghua.edu.cn/simple
安装完成后,提示 Successfully installed ipython-xxx 即为成功。
输入代码前缀,按 Tab 键自动补全:
# 输入 ran 按 Tab → 自动补全为 randomimport random# 输入 random. 按 Tab → 展示所有可用方法(choice/shuffle等)random.choice(ua_pool)
直接执行系统 Shell 命令(无需退出 IPython)
在 IPython 内直接用 ! 开头执行 CMD 命令,适配 Windows 系统:
# 查看当前目录文件(Windows)!dir# 安装依赖包!py -m pip install requests# 切换目录%cd D:\crawler_project
常用魔法命令(% 开头,IPython 专属)
| | |
|---|
%run xxx.py | 一键运行完整 Python 脚本 | %run bee_client.py |
%pwd | | |
%history | | |
%reset | | |
%debug | | |
示例:运行项目中的配置文件测试
# 直接运行项目脚本,测试config配置%run config.py# 查看配置变量print(server_host, server_port)
当代码报错时,IPython 会彩色高亮 + 精准定位行号,比如爬虫 URL 写错、模块未导入,一眼就能找到问题。
查看变量 / 函数
# 查看当前所有定义的变量whos# 查看单个对象的用法(按 q 退出帮助)random.choice?
两种方式任选其一,即可回到 CMD 终端:
In [x]: exit# 或In [x]: quit
IPython 是 Jupyter 的底层内核,学会 IPython 后,可无缝使用 Jupyter(网页版交互式开发工具),更适合编写爬虫笔记、分步调试。安装命令:
py -m pip install jupyter -i https://pypi.tuna.tsinghua.edu.cn/simple
启动命令:jupyter notebook
9. 总结
- IPython 仅用于测试代码片段 / 调试,不要用它编写完整的项目代码,完整代码仍需保存在
.py 文件中; - 所有在 IPython 中定义的变量 / 类,关闭终端后会清空,核心逻辑务必保存到项目文件;
- 运行
%run命令时,确保路径在项目根目录D:\crawler_project,避免导入模块失败。 - IPython 是 Python 调试神器,比原生终端更高效、更友好,完美适配爬虫代码测试;
- 快速上手:安装→ipython启动→用Tab补全 +%run运行脚本,即可满足90%新手需求;
- 场景落地:用它测试 UA 池、robots.txt校验、爬虫片段,大幅减少调试时间。