实现网页元素解析,其实就是从 HTML 这堆“乱糟糟”的代码中提取出我们需要的数据。在 Python 爬虫过程中,实现网页元素解析的方法有很多,接下来介绍一下常用的几种方法。
1
正则表达式
利用字符串匹配规则,直接在 HTML 文本中“切”出数据。在 Python 中,使用内置的 re 模块来实现。
1. 方法
re.findall()
作用:查找字符串中所有符合正则的内容,返回一个列表。
场景:比如一页有 20 个商品,你要把这 20 个商品的名字全抓出来。
import recontent = "价格: 100元, 价格: 200元, 价格: 300元"# \d+ 表示匹配数字# r'' 表示原生字符串,免去转义烦恼result = re.findall(r"\d+", content)print(result) # ['100', '200', '300']
re.search():
扫描字符串,找到第一个符合正则的内容,返回一个对象。需要用 .group() 取出数据。
场景:比如提取网页标题,或者翻页的页码,通常只有一个目标。
import recontent = "价格: 100元, 价格: 200元, 价格: 300元"# search 返回的是 Match 对象,需要 .group() 取值result = re.search(r"\d+", content)if result:print(result.group(0)) # 100 -> 整体匹配结果print(result.groups()) # () -> 括号里分组的内容,没分组所以为空
re.sub():
把符合正则的内容替换成指定字符串。
场景:数据清洗。比如把网页里的换行符 \n、空格 \t 全部去掉,方便后续处理。
import recontent = "价格: 100元, 价格: 200元, 价格: 300元"result = re.sub(r"元", "¥", content)print(result) # 价格: 100¥, 价格: 200¥, 价格: 300¥
想了解更多请查看Python 正则表达式
2. 实例演练
import rehtml = """<div class="movie-item"><span class="name">肖申克的救赎</span><span class="score">9.7</span></div><div class="movie-item"><span class="name">阿甘正传</span><span class="score">9.5</span></div>"""# 提取电影名称pattern = r'<span class="name">(.*?)</span>' # 注意引号也有讲究,name一定要用双引号mvs = re.findall(pattern, html)print(mvs) # ['肖申克的救赎', '阿甘正传']
解析:找的是 <span class="name"> 和 </span> 中间的内容。
<span class="name">:这是前缀,原样写。
(.*?):这是核心。. 表示任意字符,* 表示多次,? 表示非贪婪(遇到第一个结束标签就停)。
():提取的是中间的名字,不是标签,所以把名字部分用括号包起来。
</span>:这是后缀,原样写。
# 同时提取名称和评分(多分组)pattern = r'<span class="name">(.*?)</span>.*?<span class="score">(.*?)</span>'mvs_scs = re.findall(pattern, html, re.S)print(mvs_scs) # [('肖申克的救赎', '9.7'), ('阿甘正传', '9.5')]
注意 re.S 标志:在 HTML 中,标签之间往往有换行符。默认情况下,. 是不能匹配换行符的。加上 re.S参数,. 就可以匹配包括换行符在内的所有字符了。这在爬虫中非常常用。
2
XPath (配合 lxml 库)
XPath(XML Path Language)是一种在 XML 文档中查找信息的语言。由于 HTML 是 XML 的一个子集,所以 XPath 也非常适合用于解析 HTML。
1. 环境准备
pip install lxml
2. 基本流程
from lxml import etree# 1. 准备 HTML 文本(通常是爬虫抓取下来的 html_str)html_str = """<div><ul><li class="item-0">第一个</li><li class="item-1">第二个</li></ul></div>"""# 2. 解析 HTML,生成对象树# HTML() 方法能自动修复不规范的 HTML 标签tree = etree.HTML(html_str)# 3. 使用 xpath() 方法提取数据# 返回的是一个列表result_list = tree.xpath('/div/ul/li/text()')# 4. 处理结果print(result_list) # 输出: ['第一个', '第二个']
3. 语法:如何写路径
XPath 的核心在于路径表达式,这就好比在文件系统中找文件。
路径选择:
表达式 | 含义 | 举例 | 说明 |
/ | 从根节点选取 | /div/ul | 根目录下的 div 下的 ul |
// | 从任意位置选取(最常用) | //li | 找到文档里所有的 li 标签,不管它在哪一层 |
. | 当前节点 | ./li | 当前节点下的 li |
.. | 当前节点的父节点 | ../div | 上级节点的 div |
建议:爬虫中 90% 的情况都用 // 开头,比如上面哪个例子如果改为"/div/ul/li/text()"会返回空列表 [],想过没有为什么呢?div不就是那段html的根节点吗?
详细解释:在 XPath 中,/div 表示选取根节点下的直接子元素 div。但是,etree.HTML(html_str) 解析 HTML 后,会自动创建一个虚拟的根节点(通常可以理解为 <html> 或 <body> 的包装器),把代码里的 <div> 包在里面。可以使用 etree.tostring() 来调试查看解析后的树结构:
# # tostring()将标签元素转换为字符串输出,返回字节类型,需要解码成字符串查看print(etree.tostring(tree, pretty_print=True).decode('utf-8'))
会发现输出里有 <html><body><div>...,这就是为什么直接 /div 找不到了。
谓语筛选(找特定的标签)
语法 | 含义 | 说明 |
//li[1] | 选取第一个 li | XPath 的索引从 1 开始,不是 0 |
//li[last()] | 选取最后一个 li | last() 是内置函数 |
//li[position()<3] | 选取前两个 li | 选取位置小于 3 的 |
//div[@class="box"] | 选取 class 为 box 的 div | 最常用 |
//div[@id="main"] | 选取 id 为 main 的 div | |
//div[contains(@class, "box")] | 模糊匹配 | class 包含 “box” 字符即可(处理多类名) |
属性与文本提取(拿数据)
找到标签后,我们要么拿属性里的链接,要么拿标签里的文字。
语法 | 含义 | 说明 |
/text() | 获取标签内的文本 | 如 <a>hello</a> -> hello |
//a/@href | 获取 a 标签的 href 属性 | 如 <a href="http://..."> -> http://... |
4. 实例演练
from lxml import etreehtml = """<div class="movie-list"><div class="item"><a href="https://movie.com/shawshank"><span class="name">肖申克的救赎</span></a><p class="score">9.7</p></div><div class="item"><a href="https://movie.com/forrest"><span class="name">阿甘正传</span></a><p class="score">9.5</p></div></div>"""tree = etree.HTML(html)# 提取所有电影名mvs = tree.xpath('//span[@class="name"]/text()')print(mvs) # ['肖申克的救赎', '阿甘正传']# 提取详情页链接links = tree.xpath('//div[@class="item"]/a/@href')print(links) # ['https://movie.com/shawshank', 'https://movie.com/forrest']# 局部二次解析# 1. 先定位到每个电影条目items = tree.xpath('//div[@class="item"]')# 2. 对每个 item 进行二次 xpath 解析for item in items:# 注意:这里要用 ./ 开头,表示在当前 item 节点下查找name = item.xpath('./a/span/text()')[0]score = item.xpath('./p/text()')[0]print(f"{name}:{score}")
5. 浏览器复制功能
如果觉得手写 XPath 太难,或者 HTML 结构太复杂,Chrome 浏览器提供了一键复制 XPath 的功能:
方法:
打开网页,按 F12 打开开发者工具。
点击左上角的“选择元素”图标(箭头)。
在页面上点击想抓取的元素。
在 Elements 面板中,右键点击高亮的 HTML 代码。
选择 Copy -> Copy XPath。会得到类似/html/body/div[1]/ul/li[4]的路径。
缺点:这种绝对路径非常脆弱,如果网页多加了一个广告 div,路径就失效了。
建议:可以先用复制功能快速获取,然后手动修改成相对路径(如 //div[@class="xxx"]...)。
3
BeautifulSoup (bs4)
将 HTML 解析成“树”结构,通过标签名、属性、CSS 选择器来定位。
1. 环境准备
pip install beautifulsoup4 lxml
注意:BS4 解析页面时需要依赖文档解析器,所以还需要安装 lxml 作为解析库,Python 也自带了一个文档解析库 html.parser, 但是其解析速度要稍慢于 lxml。
2. 基本流程
from bs4 import BeautifulSoupimport lxml # 虽然不直接调用,但要确保安装了# 1. 准备 HTML 文本(通常是爬虫抓取下来的 html_str)html_str = """<head><title>标题</title></head>"""# 2. 创建 BeautifulSoup 对象# 参数1: HTML 字符串# 参数2: 解析器 (推荐用 'lxml',速度快;也可以用 'html.parser',自带无需安装)soup = BeautifulSoup(html_str, 'lxml')# 3. 提取数据print(soup.title)# <title>标题</title>print(soup.title.string)# 标题
3. 搜索HTML 文档的方法
find_all():用于查找所有符合条件的标签,返回一个列表。如果没有符合条件的标签返回空列表。
# 1.按标签名查找# 找到所有的 a 标签soup.find_all("a")# 2.按属性查找# 因为 class 是 Python 关键字,所以这里用 class_(加下划线)# 找 class="xxx" 的 p 标签soup.find_all('p', class_='xxx')# 找 id="xxx" 的标签soup.find_all(id='xxx')
find():find() 方法与 find_all() 类似,不同之处在于它用于查找第一个符合条件的标签,返回的是一个 Tag 对象。如果没有找到查询标签返回 None。
CSS 选择器 —— select():
如果懂一点 CSS(网页样式),这个方法会非常顺手。核心就是:怎么写 CSS 样式,就怎么写查找代码。
符号 | 含义 | 举例 | 说明 |
直接写标签名 | 按标签找 | div | 找所有的 div 标签 |
. | 按 class 找 | .title | 找所有 class=“title” 的标签 |
# | 按 id 找 | 找 id=“main” 的标签 | |
空格 | 找子孙后代 | div a | div 里面的 a 标签(不管嵌套多深) |
from bs4 import BeautifulSouphtml_str = """<div class="box"><p class="title">标题文本</p><ul id="list"><li>第一行</li><li>第二行</li></ul></div>"""soup = BeautifulSoup(html_str, 'lxml')# 1. 按类名查找(用 .)print(soup.select('.title'))# [<p class="title">标题文本</p>]# 2. 按 ID 查找(用 #)print(soup.select('#list'))# 3. 层级查找(用空格)print(soup.select('#list li'))# [<li>第一行</li>, <li>第二行</li>]
注意:select() 永远返回一个列表。哪怕只找到一个,也是包含一个元素的列表。想取值要用 [0]。
4. 数据提取:从Tag对象拿数据
通过 find 或 select 拿到了 Tag 对象(比如一个 <a> 标签),怎么拿出里面的数据呢?
获取文本:
tag.string:获取直接子节点文本(如果里面还有别的标签,返回 None)。
tag.text 或 tag.get_text():获取该标签内部所有的文本(包含子孙节点的)。
tag.get_text(strip=True):去除文本前后的空白字符。
获取属性:
tag['href']:像操作字典一样操作。
tag.get('href'):如果属性不存在,不会报错,返回 None。
5. 实例演示
from bs4 import BeautifulSouphtml_str = """<div class="movie-list"><div class="item"><a href="https://movie.com/shawshank"><span class="name">肖申克的救赎</span></a><p class="score">9.7</p></div><div class="item"><a href="https://movie.com/forrest"><span class="name">阿甘正传</span></a><p class="score">9.5</p></div></div>"""soup = BeautifulSoup(html_str, 'lxml')# 1. 先定位到每个电影条目items = soup.find_all('div', class_='item')# 2. 遍历每个容器,提取具体信息for item in items:name = item.find('span', class_='name').stringscore = item.find('p', class_='score').textlink = item.find('a')['href']print(f"电影: {name}, 评分: {score}, 链接: {link}")
长按或扫描下方二维码,免费获取 Python公开课和大佬打包整理的几百G的学习资料,内容包含但不限于Python电子书、教程、项目接单、源码等等 推荐阅读
点击 阅读原文 了解更多