当前位置：首页>python>Python爬虫——实现网页元素解析的方法

Python爬虫——实现网页元素解析的方法

2026-06-29 10:14:20

关注+星标，每天学习Python新技能

来源：网络

实现网页元素解析，其实就是从 HTML 这堆“乱糟糟”的代码中提取出我们需要的数据。在 Python 爬虫过程中，实现网页元素解析的方法有很多，接下来介绍一下常用的几种方法。

正则表达式

利用字符串匹配规则，直接在 HTML 文本中“切”出数据。在 Python 中，使用内置的 re 模块来实现。

1. 方法

re.findall()

作用：查找字符串中所有符合正则的内容，返回一个列表。
场景：比如一页有 20 个商品，你要把这 20 个商品的名字全抓出来。

import recontent = "价格: 100元, 价格: 200元, 价格: 300元"# \d+ 表示匹配数字# r'' 表示原生字符串，免去转义烦恼result = re.findall(r"\d+", content)print(result)  # ['100', '200', '300']

re.search()：

扫描字符串，找到第一个符合正则的内容，返回一个对象。需要用 .group() 取出数据。
场景：比如提取网页标题，或者翻页的页码，通常只有一个目标。

import recontent = "价格: 100元, 价格: 200元, 价格: 300元"# search 返回的是 Match 对象，需要 .group() 取值result = re.search(r"\d+", content)if result:    print(result.group(0))  # 100 -> 整体匹配结果    print(result.groups())  # () -> 括号里分组的内容,没分组所以为空

re.sub()：

把符合正则的内容替换成指定字符串。
场景：数据清洗。比如把网页里的换行符 \n、空格 \t 全部去掉，方便后续处理。

import recontent = "价格: 100元, 价格: 200元, 价格: 300元"result = re.sub(r"元", "￥", content)print(result)  # 价格: 100￥, 价格: 200￥, 价格: 300￥

想了解更多请查看 Python 正则表达式

2. 实例演练

import rehtml = """<div class="movie-item">    <span class="name">肖申克的救赎</span>    <span class="score">9.7</span></div><div class="movie-item">    <span class="name">阿甘正传</span>    <span class="score">9.5</span></div>"""# 提取电影名称pattern = r'<span class="name">(.*?)</span>'  # 注意引号也有讲究，name一定要用双引号mvs = re.findall(pattern, html)print(mvs)  # ['肖申克的救赎', '阿甘正传']

解析：找的是 <span class="name"> 和 </span> 中间的内容。

<span class="name">：这是前缀，原样写。
(.*?)：这是核心。. 表示任意字符，* 表示多次，? 表示非贪婪（遇到第一个结束标签就停）。
()：提取的是中间的名字，不是标签，所以把名字部分用括号包起来。
</span>：这是后缀，原样写。

# 同时提取名称和评分（多分组)pattern = r'<span class="name">(.*?)</span>.*?<span class="score">(.*?)</span>'mvs_scs = re.findall(pattern, html, re.S)print(mvs_scs)  # [('肖申克的救赎', '9.7'), ('阿甘正传', '9.5')]

注意 re.S 标志：在 HTML 中，标签之间往往有换行符。默认情况下，. 是不能匹配换行符的。加上 re.S参数，. 就可以匹配包括换行符在内的所有字符了。这在爬虫中非常常用。

XPath (配合 lxml 库)

XPath（XML Path Language）是一种在 XML 文档中查找信息的语言。由于 HTML 是 XML 的一个子集，所以 XPath 也非常适合用于解析 HTML。

1. 环境准备

pip install lxml

2. 基本流程

from lxml import etree# 1. 准备 HTML 文本（通常是爬虫抓取下来的 html_str）html_str = """<div>    <ul>        <li class="item-0">第一个</li>        <li class="item-1">第二个</li>    </ul></div>"""# 2. 解析 HTML，生成对象树# HTML() 方法能自动修复不规范的 HTML 标签tree = etree.HTML(html_str)# 3. 使用 xpath() 方法提取数据# 返回的是一个列表result_list = tree.xpath('/div/ul/li/text()')# 4. 处理结果print(result_list) # 输出: ['第一个', '第二个']

3. 语法：如何写路径

XPath 的核心在于路径表达式，这就好比在文件系统中找文件。

路径选择：

表达式	含义	举例	说明
/	从根节点选取	/div/ul	根目录下的 div 下的 ul
//	从任意位置选取（最常用）	//li	找到文档里所有的 li 标签，不管它在哪一层
.	当前节点	./li	当前节点下的 li
..	当前节点的父节点	../div	上级节点的 div

建议：爬虫中 90% 的情况都用 // 开头，比如上面哪个例子如果改为"/div/ul/li/text()"会返回空列表 []，想过没有为什么呢？div不就是那段html的根节点吗？

详细解释：在 XPath 中，/div 表示选取根节点下的直接子元素 div。但是，etree.HTML(html_str) 解析 HTML 后，会自动创建一个虚拟的根节点（通常可以理解为 <html> 或 <body> 的包装器），把代码里的 <div> 包在里面。可以使用 etree.tostring() 来调试查看解析后的树结构：

# # tostring()将标签元素转换为字符串输出，返回字节类型，需要解码成字符串查看print(etree.tostring(tree, pretty_print=True).decode('utf-8'))

会发现输出里有 <html><body><div>...，这就是为什么直接 /div 找不到了。

谓语筛选（找特定的标签）

语法	含义	说明
//li[1]	选取第一个 li	XPath 的索引从 1 开始，不是 0
//li[last()]	选取最后一个 li	last() 是内置函数
//li[position()<3]	选取前两个 li	选取位置小于 3 的
//div[@class="box"]	选取 class 为 box 的 div	最常用
//div[@id="main"]	选取 id 为 main 的 div
//div[contains(@class, "box")]	模糊匹配	class 包含 “box” 字符即可（处理多类名）

属性与文本提取（拿数据）

找到标签后，我们要么拿属性里的链接，要么拿标签里的文字。

语法	含义	说明
/text()	获取标签内的文本	如 <a>hello</a> -> hello
//a/@href	获取 a 标签的 href 属性	如 <a href="http://..."> -> http://...

4. 实例演练

from lxml import etreehtml = """<div class="movie-list">    <div class="item">        <a href="https://movie.com/shawshank">            <span class="name">肖申克的救赎</span>        </a>        <p class="score">9.7</p>    </div>    <div class="item">        <a href="https://movie.com/forrest">            <span class="name">阿甘正传</span>        </a>        <p class="score">9.5</p>    </div></div>"""tree = etree.HTML(html)# 提取所有电影名mvs = tree.xpath('//span[@class="name"]/text()')print(mvs)  # ['肖申克的救赎', '阿甘正传']# 提取详情页链接links = tree.xpath('//div[@class="item"]/a/@href')print(links)  # ['https://movie.com/shawshank', 'https://movie.com/forrest']# 局部二次解析# 1. 先定位到每个电影条目items = tree.xpath('//div[@class="item"]')# 2. 对每个 item 进行二次 xpath 解析for item in items:    # 注意：这里要用 ./ 开头，表示在当前 item 节点下查找    name = item.xpath('./a/span/text()')[0]    score = item.xpath('./p/text()')[0]    print(f"{name}:{score}")

5. 浏览器复制功能

如果觉得手写 XPath 太难，或者 HTML 结构太复杂，Chrome 浏览器提供了一键复制 XPath 的功能：

方法：

打开网页，按 F12 打开开发者工具。
点击左上角的“选择元素”图标（箭头）。
在页面上点击想抓取的元素。
在 Elements 面板中，右键点击高亮的 HTML 代码。
选择 Copy -> Copy XPath。会得到类似/html/body/div[1]/ul/li[4]的路径。

缺点：这种绝对路径非常脆弱，如果网页多加了一个广告 div，路径就失效了。

建议：可以先用复制功能快速获取，然后手动修改成相对路径（如 //div[@class="xxx"]...）。

BeautifulSoup (bs4)

将 HTML 解析成“树”结构，通过标签名、属性、CSS 选择器来定位。

1. 环境准备

pip install beautifulsoup4 lxml

注意：BS4 解析页面时需要依赖文档解析器，所以还需要安装 lxml 作为解析库，Python 也自带了一个文档解析库 html.parser，但是其解析速度要稍慢于 lxml。

2. 基本流程

from bs4 import BeautifulSoupimport lxml  # 虽然不直接调用，但要确保安装了# 1. 准备 HTML 文本（通常是爬虫抓取下来的 html_str）html_str = """<head><title>标题</title></head>"""# 2. 创建 BeautifulSoup 对象# 参数1: HTML 字符串# 参数2: 解析器 (推荐用 'lxml'，速度快；也可以用 'html.parser'，自带无需安装)soup = BeautifulSoup(html_str, 'lxml')# 3. 提取数据print(soup.title)# <title>标题</title>print(soup.title.string)# 标题

3. 搜索HTML 文档的方法

find_all()：用于查找所有符合条件的标签，返回一个列表。如果没有符合条件的标签返回空列表。

# 1.按标签名查找# 找到所有的 a 标签soup.find_all("a")# 2.按属性查找# 因为 class 是 Python 关键字，所以这里用 class_（加下划线）# 找 class="xxx" 的 p 标签soup.find_all('p', class_='xxx')  # 找 id="xxx" 的标签soup.find_all(id='xxx')

find()：find() 方法与 find_all() 类似，不同之处在于它用于查找第一个符合条件的标签，返回的是一个 Tag 对象。如果没有找到查询标签返回 None。

CSS 选择器 —— select()：

如果懂一点 CSS（网页样式），这个方法会非常顺手。核心就是：怎么写 CSS 样式，就怎么写查找代码。

符号	含义	举例	说明
直接写标签名	按标签找	div	找所有的 div 标签
.	按 class 找	.title	找所有 class=“title” 的标签
#	按 id 找	#main	找 id=“main” 的标签
空格	找子孙后代	div a	div 里面的 a 标签（不管嵌套多深）

from bs4 import BeautifulSouphtml_str = """<div class="box">    <p class="title">标题文本</p>    <ul id="list">        <li>第一行</li>        <li>第二行</li>    </ul></div>"""soup = BeautifulSoup(html_str, 'lxml')# 1. 按类名查找（用 .）print(soup.select('.title'))# [<p class="title">标题文本</p>]# 2. 按 ID 查找（用 #）print(soup.select('#list'))# 3. 层级查找（用空格）print(soup.select('#list li'))# [<li>第一行</li>, <li>第二行</li>]

注意：select() 永远返回一个列表。哪怕只找到一个，也是包含一个元素的列表。想取值要用 [0]。

4. 数据提取：从Tag对象拿数据

通过 find 或 select 拿到了 Tag 对象（比如一个 <a> 标签），怎么拿出里面的数据呢？

获取文本：
tag.string：获取直接子节点文本（如果里面还有别的标签，返回 None）。
tag.text 或 tag.get_text()：获取该标签内部所有的文本（包含子孙节点的）。
tag.get_text(strip=True)：去除文本前后的空白字符。
获取属性：
tag['href']：像操作字典一样操作。
tag.get('href')：如果属性不存在，不会报错，返回 None。

5. 实例演示

from bs4 import BeautifulSouphtml_str = """<div class="movie-list">    <div class="item">        <a href="https://movie.com/shawshank">            <span class="name">肖申克的救赎</span>        </a>        <p class="score">9.7</p>    </div>    <div class="item">        <a href="https://movie.com/forrest">            <span class="name">阿甘正传</span>        </a>        <p class="score">9.5</p>    </div></div>"""soup = BeautifulSoup(html_str, 'lxml')# 1. 先定位到每个电影条目items = soup.find_all('div', class_='item')# 2. 遍历每个容器，提取具体信息for item in items:    name = item.find('span', class_='name').string    score = item.find('p', class_='score').text    link = item.find('a')['href']    print(f"电影: {name}, 评分: {score}, 链接: {link}")

长按或扫描下方二维码，免费获取 Python公开课和大佬打包整理的几百G的学习资料，内容包含但不限于Python电子书、教程、项目接单、源码等等

Python爬虫——实现网页元素解析的方法

来源：网络

最新文章

热门文章

随机文章

Python爬虫——实现网页元素解析的方法

来源：网络

Asmi Linux —— 轻量、现代、精致的 Xfce 桌面发行版

Python 怎么学?牢记这9 个核心核心概念

最新文章

热门文章

随机文章