根据权威互联网可访问性审计报告显示,全球约四分之三的网站内容均通过JavaScript动态渲染生成。这意味着我们通过浏览器“查看网页源代码”获取的静态HTML中,无法读取到这部分动态内容,此前基于静态源码的爬虫方案会直接失效。
目前解决动态页面爬取主要有两种主流方案:第一种是抓包获取后端数据接口,该方案适配网页、手机App等各类场景,可通过浏览器开发者工具或专业抓包工具(Charles、Fiddler、Wireshark等)实现,用法与之前360图片接口爬取案例一致,本文不再赘述;第二种是借助自动化测试工具Selenium,驱动浏览器完整渲染页面,直接获取加载后的动态内容。本章将重点讲解Selenium动态爬虫的完整使用方法。
Selenium是一款开源的浏览器自动化测试工具,核心能力是驱动主流浏览器模拟真实用户操作,自动完成页面加载、元素交互等行为。对于爬虫开发而言,Selenium最大的优势是:凡是浏览器可视的页面内容,均可通过Selenium精准获取,完美适配JavaScript动态渲染、异步加载的网页场景,是动态爬虫的核心工具。
本文以Chrome浏览器为例讲解Selenium的完整用法。使用前需提前安装Chrome浏览器,并下载对应版本的浏览器驱动ChromeDriver。驱动下载可前往ChromeDriver官方下载地址,驱动版本必须与本地Chrome浏览器版本匹配,无完全一致版本时,选择版本号最接近的适配版本即可。
通过pip命令一键安装Selenium第三方库,命令如下:
pip install selenium安装完成后,可通过简单代码驱动Chrome浏览器自动打开指定网页,示例以百度首页为例:
from selenium import webdriver# 创建Chrome浏览器实例对象browser = webdriver.Chrome()# 加载并打开指定URL页面browser.get('https://www.baidu.com/')Selenium支持Firefox、Safari等主流浏览器,只需替换对应浏览器实例对象即可,代码逻辑完全通用。
初次运行代码大概率会出现以下报错,核心原因是系统无法找到ChromeDriver驱动文件:
selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home这里提供三种稳定的解决方案,按需选择即可:
bin目录(Windows系统为Scripts目录),适配当前项目独立环境,避免版本冲突。service参数手动绑定驱动文件路径,适配所有环境,代码兼容性最强:from selenium import webdriverfrom selenium.webdriver.chrome.service import Service# 手动指定ChromeDriver驱动路径browser = webdriver.Chrome(service=Service(executable_path='venv/bin/chromedriver'))browser.get('https://www.baidu.com/')页面加载完成后,可通过Selenium提供的方法定位页面元素,并模拟人工输入、点击等用户操作,完美复刻真实浏览行为。
核心方法分为两类:find\_element\(\)获取单个页面元素,返回WebElement对象;find\_elements\(\)获取一组同类元素,返回列表。Selenium支持ID、CSS选择器、XPath、标签名、类名等主流元素定位方式。
获取元素后,可通过send\_keys\(\)模拟输入、click\(\)模拟点击,完整示例如下(模拟百度搜索Python):
from selenium import webdriverfrom selenium.webdriver.common.by import By# 初始化浏览器并打开百度browser = webdriver.Chrome()browser.get('https://www.baidu.com/')# 通过ID定位搜索输入框,模拟输入关键词kw_input = browser.find_element(By.ID, 'kw')kw_input.send_keys('Python')# 通过CSS选择器定位搜索按钮,模拟点击操作su_button = browser.find_element(By.CSS_SELECTOR, '#su')su_button.click()除基础操作外,Selenium还支持拖拽、悬浮、键盘组合键等复杂操作,可通过ActionChains类实现,大家可自行拓展学习。
动态网页的元素加载存在延迟,若代码执行速度快于页面渲染速度,会触发NoSuchElementException元素找不到异常。为解决该问题,Selenium提供两种等待机制,适配不同场景。
隐式等待:全局生效,设置最大等待时长,在指定时间内持续轮询查找元素,超时则报错,适用于简单场景。
显式等待:针对性等待指定元素满足特定条件,灵活性更高、稳定性更强,是动态爬虫的首选方案。
完整综合示例(包含等待、窗口设置、页面截屏):
from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditionsfrom selenium.webdriver.support.wait import WebDriverWait# 初始化浏览器并设置窗口大小browser = webdriver.Chrome()browser.set_window_size(1200, 800)browser.get('https://www.baidu.com/')# 设置全局隐式等待:最大等待10秒browser.implicitly_wait(10)# 执行搜索操作kw_input = browser.find_element(By.ID, 'kw')kw_input.send_keys('Python')su_button = browser.find_element(By.CSS_SELECTOR, '#su')su_button.click()# 创建显式等待对象,最大等待10秒wait_obj = WebDriverWait(browser, 10)# 等待搜索结果模块加载完成wait_obj.until( expected_conditions.presence_of_element_located( (By.CSS_SELECTOR, '#content_left') ))# 页面截屏保存browser.get_screenshot_as_file('python_result.png')常用等待条件汇总表,可直接按需调用:
title_is / title_contains | |
visibility_of | |
presence_of_element_located | |
visibility_of_element_located | |
invisibility_of_element_located | |
presence_of_all_elements_located | |
text_to_be_present_in_element | |
text_to_be_present_in_element_value | |
frame_to_be_available_and_switch_to_it | |
element_to_be_clickable | |
element_to_be_selected | |
element_located_to_be_selected | |
alert_is_present |
针对瀑布流、滚动加载等需要滑动页面加载更多内容的场景,可通过Selenium的execute_script方法执行原生JS代码,模拟页面滚动、元素操作等行为,适配复杂动态页面。
常用场景:页面滚动至底部加载全部内容,代码可直接嵌入上述案例中使用:
# 执行JS代码,将页面滚动至最底部browser.execute_script('document.documentElement.scrollTop = document.documentElement.scrollHeight')复杂动态爬虫常依赖JS操作,建议简单了解BOM、DOM基础语法,可大幅提升爬虫适配能力。
多数网站具备Selenium反爬检测机制:自动化驱动的浏览器会默认标记webdriver=true,网站可通过该参数识别爬虫并拦截访问。同时浏览器顶部会显示“正受到自动测试软件的控制”提示,暴露爬虫身份。
以下是完整的反爬绕过方案,可隐藏自动化特征,模拟真实浏览器环境:
from selenium import webdriver# 配置Chrome浏览器参数,隐藏自动化特征options = webdriver.ChromeOptions()# 关闭自动化测试提示options.add_experimental_option('excludeSwitches', ['enable-automation'])# 禁用自动化扩展options.add_experimental_option('useAutomationExtension', False)# 初始化浏览器对象browser = webdriver.Chrome(options=options)# 注入JS代码,修改webdriver检测参数,绕过网站反爬browser.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'})# 常规页面操作browser.set_window_size(1200, 800)browser.get('https://www.baidu.com/')爬虫部署运行时,无需可视化浏览器窗口,可开启无头模式,隐藏浏览器界面、降低资源占用、提升爬取效率,适合服务器后台运行脚本。
from selenium import webdriveroptions = webdriver.ChromeOptions()# 开启无头浏览器模式options.add_argument('--headless')# 初始化无界面浏览器browser = webdriver.Chrome(options=options)browser.get('https://www.baidu.com/')Selenium功能丰富,本文仅讲解核心用法,更多细节可查阅Selenium Python中文官方文档。以下整理高频使用的浏览器对象与WebElement对象属性、方法。
current_url | |
current_window_handle | |
name | |
page_source | |
title | |
window_handles |
back / forward | |
close / quit | |
get | |
maximize_window | |
refresh | |
set_page_load_timeout | |
implicitly_wait | |
get_cookie/ get_cookies | |
add_cookie | |
delete_cookie/ delete_all_cookies | |
find_element / find_elements |
location | |
size | |
text | |
id | |
tag\_name |
clear | |
click | |
get_attribute | |
is_displayed | |
is_enabled | |
is_selected | |
send_keys | |
submit | |
value_of_css_property | |
find_element / find_elements | |
screenshot |
本案例结合Selenium动态加载、页面滚动、多线程下载,实现360图片网站关键词图片批量爬取,完整复刻工业级爬虫基础逻辑:
import osimport timefrom concurrent.futures import ThreadPoolExecutorimport requestsfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keys# 图片保存目录DOWNLOAD_PATH = 'images/'defdownload_picture(picture_url: str):""" 下载并保存图片 :param picture_url: 图片远程链接 """# 截取图片文件名 filename = picture_url[picture_url.rfind('/') + 1:]# 请求图片资源 resp = requests.get(picture_url)# 二进制写入保存图片withopen(os.path.join(DOWNLOAD_PATH, filename), 'wb') as file: file.write(resp.content)if __name__ == '__main__':# 创建保存目录ifnot os.path.exists(DOWNLOAD_PATH): os.makedirs(DOWNLOAD_PATH)# 初始化浏览器并打开360图片 browser = webdriver.Chrome() browser.get('https://image.so.com/z?ch=beauty') browser.implicitly_wait(10)# 定位搜索框,输入关键词并回车搜索 kw_input = browser.find_element(By.CSS_SELECTOR, 'input[name=q]') kw_input.send_keys('风景') kw_input.send_keys(Keys.ENTER)# 循环滚动页面,加载更多动态图片for _ inrange(10): browser.execute_script('document.documentElement.scrollTop = document.documentElement.scrollHeight' ) time.sleep(1)# 批量获取所有图片元素 imgs = browser.find_elements(By.CSS_SELECTOR, 'div.waterfall img')# 多线程批量下载图片,提升效率with ThreadPoolExecutor(max_workers=32) as pool:for img in imgs: pic_url = img.get_attribute('src') pool.submit(download_picture, pic_url)运行代码后,项目根目录会自动生成images文件夹,所有爬取的图片会自动保存至该目录,可自行验证爬取效果。