当前位置：首页>python>Python从入门到精通day66

Python从入门到精通day66

2026-06-30 22:54:11

使用Selenium抓取网页动态内容

根据权威互联网可访问性审计报告显示，全球约四分之三的网站内容均通过JavaScript动态渲染生成。这意味着我们通过浏览器“查看网页源代码”获取的静态HTML中，无法读取到这部分动态内容，此前基于静态源码的爬虫方案会直接失效。

目前解决动态页面爬取主要有两种主流方案：第一种是抓包获取后端数据接口，该方案适配网页、手机App等各类场景，可通过浏览器开发者工具或专业抓包工具（Charles、Fiddler、Wireshark等）实现，用法与之前360图片接口爬取案例一致，本文不再赘述；第二种是借助自动化测试工具Selenium，驱动浏览器完整渲染页面，直接获取加载后的动态内容。本章将重点讲解Selenium动态爬虫的完整使用方法。

Selenium 介绍

Selenium是一款开源的浏览器自动化测试工具，核心能力是驱动主流浏览器模拟真实用户操作，自动完成页面加载、元素交互等行为。对于爬虫开发而言，Selenium最大的优势是：凡是浏览器可视的页面内容，均可通过Selenium精准获取，完美适配JavaScript动态渲染、异步加载的网页场景，是动态爬虫的核心工具。

本文以Chrome浏览器为例讲解Selenium的完整用法。使用前需提前安装Chrome浏览器，并下载对应版本的浏览器驱动ChromeDriver。驱动下载可前往ChromeDriver官方下载地址，驱动版本必须与本地Chrome浏览器版本匹配，无完全一致版本时，选择版本号最接近的适配版本即可。

Selenium 环境搭建与基础使用

安装Selenium库

通过pip命令一键安装Selenium第三方库，命令如下：

pip install selenium

基础用法：加载网页

安装完成后，可通过简单代码驱动Chrome浏览器自动打开指定网页，示例以百度首页为例：

from selenium import webdriver# 创建Chrome浏览器实例对象browser = webdriver.Chrome()# 加载并打开指定URL页面browser.get('https://www.baidu.com/')

Selenium支持Firefox、Safari等主流浏览器，只需替换对应浏览器实例对象即可，代码逻辑完全通用。

驱动报错解决方案

初次运行代码大概率会出现以下报错，核心原因是系统无法找到ChromeDriver驱动文件：

selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home

这里提供三种稳定的解决方案，按需选择即可：

1. 全局环境变量配置（推荐）：将ChromeDriver驱动文件放入Python解释器同级目录，该目录已默认加入系统PATH环境变量，系统可自动识别驱动。
2. 虚拟环境配置：将驱动文件放入项目虚拟环境的bin目录（Windows系统为Scripts目录），适配当前项目独立环境，避免版本冲突。
3. 代码手动指定驱动路径：通过service参数手动绑定驱动文件路径，适配所有环境，代码兼容性最强：

from selenium import webdriverfrom selenium.webdriver.chrome.service import Service# 手动指定ChromeDriver驱动路径browser = webdriver.Chrome(service=Service(executable_path='venv/bin/chromedriver'))browser.get('https://www.baidu.com/')

查找页面元素与模拟用户行为

页面加载完成后，可通过Selenium提供的方法定位页面元素，并模拟人工输入、点击等用户操作，完美复刻真实浏览行为。

核心方法分为两类：find\_element\(\)获取单个页面元素，返回WebElement对象；find\_elements\(\)获取一组同类元素，返回列表。Selenium支持ID、CSS选择器、XPath、标签名、类名等主流元素定位方式。

获取元素后，可通过send\_keys\(\)模拟输入、click\(\)模拟点击，完整示例如下（模拟百度搜索Python）：

from selenium import webdriverfrom selenium.webdriver.common.by import By# 初始化浏览器并打开百度browser = webdriver.Chrome()browser.get('https://www.baidu.com/')# 通过ID定位搜索输入框，模拟输入关键词kw_input = browser.find_element(By.ID, 'kw')kw_input.send_keys('Python')# 通过CSS选择器定位搜索按钮，模拟点击操作su_button = browser.find_element(By.CSS_SELECTOR, '#su')su_button.click()

除基础操作外，Selenium还支持拖拽、悬浮、键盘组合键等复杂操作，可通过ActionChains类实现，大家可自行拓展学习。

隐式等待与显式等待

动态网页的元素加载存在延迟，若代码执行速度快于页面渲染速度，会触发NoSuchElementException元素找不到异常。为解决该问题，Selenium提供两种等待机制，适配不同场景。

隐式等待：全局生效，设置最大等待时长，在指定时间内持续轮询查找元素，超时则报错，适用于简单场景。

显式等待：针对性等待指定元素满足特定条件，灵活性更高、稳定性更强，是动态爬虫的首选方案。

完整综合示例（包含等待、窗口设置、页面截屏）：

from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditionsfrom selenium.webdriver.support.wait import WebDriverWait# 初始化浏览器并设置窗口大小browser = webdriver.Chrome()browser.set_window_size(1200, 800)browser.get('https://www.baidu.com/')# 设置全局隐式等待：最大等待10秒browser.implicitly_wait(10)# 执行搜索操作kw_input = browser.find_element(By.ID, 'kw')kw_input.send_keys('Python')su_button = browser.find_element(By.CSS_SELECTOR, '#su')su_button.click()# 创建显式等待对象，最大等待10秒wait_obj = WebDriverWait(browser, 10)# 等待搜索结果模块加载完成wait_obj.until(    expected_conditions.presence_of_element_located(        (By.CSS_SELECTOR, '#content_left')    ))# 页面截屏保存browser.get_screenshot_as_file('python_result.png')

常用等待条件汇总表，可直接按需调用：

等待条件	具体含义
`title_is / title_contains`	页面标题等于指定内容 / 标题包含指定内容
`visibility_of`	元素处于可见状态
`presence_of_element_located`	目标元素加载完成并存在于页面
`visibility_of_element_located`	定位元素加载完成且可见
`invisibility_of_element_located`	定位元素隐藏、不可见
`presence_of_all_elements_located`	页面所有目标元素全部加载完成
`text_to_be_present_in_element`	元素文本包含指定内容
`text_to_be_present_in_element_value`	元素value属性包含指定内容
`frame_to_be_available_and_switch_to_it`	iframe框架加载完成并自动切换
`element_to_be_clickable`	元素加载完成且可点击
`element_to_be_selected`	元素处于选中状态
`element_located_to_be_selected`	定位后的元素处于选中状态
`alert_is_present`	页面弹出Alert弹窗

执行JavaScript代码

针对瀑布流、滚动加载等需要滑动页面加载更多内容的场景，可通过Selenium的execute_script方法执行原生JS代码，模拟页面滚动、元素操作等行为，适配复杂动态页面。

常用场景：页面滚动至底部加载全部内容，代码可直接嵌入上述案例中使用：

# 执行JS代码，将页面滚动至最底部browser.execute_script('document.documentElement.scrollTop = document.documentElement.scrollHeight')

复杂动态爬虫常依赖JS操作，建议简单了解BOM、DOM基础语法，可大幅提升爬虫适配能力。

Selenium反爬破解方案

多数网站具备Selenium反爬检测机制：自动化驱动的浏览器会默认标记webdriver=true，网站可通过该参数识别爬虫并拦截访问。同时浏览器顶部会显示“正受到自动测试软件的控制”提示，暴露爬虫身份。

以下是完整的反爬绕过方案，可隐藏自动化特征，模拟真实浏览器环境：

from selenium import webdriver# 配置Chrome浏览器参数，隐藏自动化特征options = webdriver.ChromeOptions()# 关闭自动化测试提示options.add_experimental_option('excludeSwitches', ['enable-automation'])# 禁用自动化扩展options.add_experimental_option('useAutomationExtension', False)# 初始化浏览器对象browser = webdriver.Chrome(options=options)# 注入JS代码，修改webdriver检测参数，绕过网站反爬browser.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument',    {'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'})# 常规页面操作browser.set_window_size(1200, 800)browser.get('https://www.baidu.com/')

无头浏览器模式

爬虫部署运行时，无需可视化浏览器窗口，可开启无头模式，隐藏浏览器界面、降低资源占用、提升爬取效率，适合服务器后台运行脚本。

from selenium import webdriveroptions = webdriver.ChromeOptions()# 开启无头浏览器模式options.add_argument('--headless')# 初始化无界面浏览器browser = webdriver.Chrome(options=options)browser.get('https://www.baidu.com/')

Selenium 常用API参考

Selenium功能丰富，本文仅讲解核心用法，更多细节可查阅Selenium Python中文官方文档。以下整理高频使用的浏览器对象与WebElement对象属性、方法。

一、浏览器对象常用属性

属性名	描述
`current_url`	获取当前页面的完整URL
`current_window_handle`	获取当前浏览器窗口句柄
`name`	获取当前浏览器名称
`page_source`	获取包含动态渲染内容的完整页面源码
`title`	获取当前页面标题
`window_handles`	获取浏览器所有打开窗口的句柄列表

二、浏览器对象常用方法

方法名	描述
`back / forward`	浏览器页面后退 / 前进
`close / quit`	关闭当前窗口 / 退出整个浏览器实例
`get`	加载并打开指定URL页面
`maximize_window`	浏览器窗口最大化
`refresh`	刷新当前页面
`set_page_load_timeout`	设置页面加载超时时间
`implicitly_wait`	设置全局隐式等待时间
`get_cookie/ get_cookies`	获取单个Cookie / 全部Cookie
`add_cookie`	手动添加Cookie信息
`delete_cookie/ delete_all_cookies`	删除指定Cookie / 清空全部Cookie
`find_element / find_elements`	查找单个元素 / 批量查找元素

三、WebElement元素对象常用属性

属性名	描述
`location`	获取元素在页面中的坐标位置
`size`	获取元素的宽高尺寸
`text`	获取元素的文本内容
`id`	获取元素的ID属性值
`tag\_name`	获取元素的标签名

四、WebElement元素对象常用方法

方法名	描述
`clear`	清空输入框、文本域内容
`click`	点击目标元素
`get_attribute`	获取元素指定属性的值
`is_displayed`	判断元素是否可见
`is_enabled`	判断元素是否可操作
`is_selected`	判断单选框/复选框是否选中
`send_keys`	模拟输入文本、按键
`submit`	提交表单
`value_of_css_property`	获取元素指定CSS样式属性
`find_element / find_elements`	查找当前元素下的子元素
`screenshot`	对当前元素单独截屏

综合实战案例：动态图片批量爬取

本案例结合Selenium动态加载、页面滚动、多线程下载，实现360图片网站关键词图片批量爬取，完整复刻工业级爬虫基础逻辑：

import osimport timefrom concurrent.futures import ThreadPoolExecutorimport requestsfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keys# 图片保存目录DOWNLOAD_PATH = 'images/'defdownload_picture(picture_url: str):"""    下载并保存图片    :param picture_url: 图片远程链接    """# 截取图片文件名    filename = picture_url[picture_url.rfind('/') + 1:]# 请求图片资源    resp = requests.get(picture_url)# 二进制写入保存图片withopen(os.path.join(DOWNLOAD_PATH, filename), 'wb') as file:        file.write(resp.content)if __name__ == '__main__':# 创建保存目录ifnot os.path.exists(DOWNLOAD_PATH):        os.makedirs(DOWNLOAD_PATH)# 初始化浏览器并打开360图片    browser = webdriver.Chrome()    browser.get('https://image.so.com/z?ch=beauty')    browser.implicitly_wait(10)# 定位搜索框，输入关键词并回车搜索    kw_input = browser.find_element(By.CSS_SELECTOR, 'input[name=q]')    kw_input.send_keys('风景')    kw_input.send_keys(Keys.ENTER)# 循环滚动页面，加载更多动态图片for _ inrange(10):        browser.execute_script('document.documentElement.scrollTop = document.documentElement.scrollHeight'        )        time.sleep(1)# 批量获取所有图片元素    imgs = browser.find_elements(By.CSS_SELECTOR, 'div.waterfall img')# 多线程批量下载图片，提升效率with ThreadPoolExecutor(max_workers=32) as pool:for img in imgs:            pic_url = img.get_attribute('src')            pool.submit(download_picture, pic_url)

运行代码后，项目根目录会自动生成images文件夹，所有爬取的图片会自动保存至该目录，可自行验证爬取效果。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

隐式等待与显式等待

执行JavaScript代码

Selenium反爬破解方案

无头浏览器模式

Selenium 常用API参考

一、浏览器对象常用属性

二、浏览器对象常用方法

三、WebElement元素对象常用属性

四、WebElement元素对象常用方法

综合实战案例：动态图片批量爬取

Python从入门到精通day66

使用Selenium抓取网页动态内容

Selenium 介绍

Selenium 环境搭建与基础使用

安装Selenium库

基础用法：加载网页

驱动报错解决方案

查找页面元素与模拟用户行为

最新文章

热门文章

随机文章

Python从入门到精通day66

使用Selenium抓取网页动态内容

Selenium 介绍

Selenium 环境搭建与基础使用

安装Selenium库

基础用法：加载网页

驱动报错解决方案

查找页面元素与模拟用户行为

隐式等待与显式等待

执行JavaScript代码

Selenium反爬破解方案

无头浏览器模式

Selenium 常用API参考

一、浏览器对象常用属性

二、浏览器对象常用方法

三、WebElement元素对象常用属性

四、WebElement元素对象常用方法

综合实战案例：动态图片批量爬取

10分钟上手Python argparse (一)

免费领取|GESP/CSP-J/Python 全套编程学习资料(无套路)

最新文章

热门文章

随机文章