Python 玩转 Excel 案例【第 21 期】:电商运营必备!从客户备注中批量提取手机号和金额
📌 案例说明
原始数据表(订单备注.xlsx):
| |
|---|
| 帮别人买的,金额450元,收货人杨芳 14411118710 |
| 急用!14733332513,金额10000,麻烦加急 |
| 金额150元,14522229222,备注:易碎品 |
这是电商、客服、运营中非常常见的场景:客户备注里夹杂着手机号、金额等各种信息,需要批量提取出来变成结构化数据。
原始数据是一张订单备注表,我们需要:
本期案例将跟大家一起学习如何用 Python 批量从杂乱的文本中提取结构化信息,实现“一键清洗,自动提取”。
核心操作:正则表达式匹配 + 批量提取 + 自动写入新列
- • 核心逻辑:用
re 正则匹配手机号和金额,用 pandas 批量处理并写入
📜 完整代码
"""
从Excel备注中批量提取手机号和金额
"""
import pandas as pd
import re
from pathlib import Path
def extract_phone(text):
if pd.isna(text):
return ""
match = re.search(r'(?<!\d)1\d{10}(?!\d)', str(text))
return match.group() if match else ""
def extract_amount(text):
if pd.isna(text):
return ""
patterns = [
r'金额[:]?\s*(\d+)',
r'货款\s*(\d+)',
r'(\d+)\s*元',
]
for pattern in patterns:
match = re.search(pattern, str(text))
if match:
return match.group(1)
return ""
def process_remarks(input_file, output_file, remark_col="客户备注"):
input_path = Path(input_file)
output_path = Path(output_file)
output_path.parent.mkdir(parents=True, exist_ok=True)
df = pd.read_excel(input_path)
df["提取手机号"] = df[remark_col].apply(extract_phone)
df["提取金额"] = df[remark_col].apply(extract_amount)
df.to_excel(output_path, index=False)
print(f"完成!共 {len(df)} 条,输出:{output_path}")
if __name__ == "__main__":
process_remarks("订单备注.xlsx", "订单备注_提取结果.xlsx")
运行结果(订单备注_提取结果.xlsx):
| | | |
|---|
| 帮别人买的,金额450元,收货人杨芳 14411118710 | | |
| 急用!14733332513,金额10000,麻烦加急 | | |
| 金额150元,14522229222,备注:易碎品 | | |
💡 结果分析:每条备注中的手机号和金额被自动提取到新列,没有手机号或金额的留空,方便后续统计客户联系方式和订单金额分布。
第一步:导入所需库
import pandas as pd
import re
from pathlib import Path
代码解释:
- •
import pandas as pd
导入 pandas 库,用于读取 Excel 文件、处理数据、保存结果。pandas 能自动将 Excel 表格解析为 DataFrame 结构,方便批量操作。 - •
import re
导入 Python 内置的正则表达式库,这是本次案例的核心工具。正则表达式可以快速在文本中查找匹配特定模式的字符串(如手机号、金额)。 - •
from pathlib import Path
导入 Path 类,用于处理文件路径,比传统的 os.path 更简洁直观。
💡 小贴士:re 是 Python 标准库,不需要额外安装,直接用就行。
第二步:编写手机号提取函数
def extract_phone(text):
if pd.isna(text):
return ""
match = re.search(r'(?<!\d)1\d{10}(?!\d)', str(text))
return match.group() if match else ""
2.1 处理空值
if pd.isna(text):
return ""
pd.isna(text) 检查单元格是否为空(NaN)。如果备注为空,直接返回空字符串,避免后续报错。
2.2 手机号正则表达式(逐符号拆解)
pattern = r'(?<!\d)1\d{10}(?!\d)'
这个正则看起来有点无从下手,我们一个符号一个符号拆开看:
第一部分:(?<!\d)
| | |
|---|
( | | |
? | | 跟在 ( 后面,表示这不是普通的捕获分组,而是特殊模式 |
< | | |
! | | |
\d | | |
) | | |
连起来 (?<!\d) 的意思是:当前位置的前面不是一个数字。
这是一种“零宽断言”,意思是:它只做检查,不消耗字符,也不会把检查的字符算进匹配结果里。
举个例子:"abc123" 中,如果我们匹配 (?<!\d)1:
- • 检查
1 前面的字符是 c(不是数字)→ 条件满足 ✅
第二部分:1
直接匹配字符 1。中国大陆手机号第一位固定是 1。
第三部分:\d{10}
连起来 \d{10} 的意思是:连续 10 个数字。
加上前面的 1,一共就是 1 + 10 = 11 位数字。
第四部分:(?!\d)
连起来 (?!\d) 的意思是:当前位置的后面不是一个数字。
这也是零宽断言,只做检查,不消耗字符。
📝 零宽断言速查笔记
四个断言速查表
| | | |
|---|
(?=...) | | | |
(?!...) | | | |
(?<=...) | | | |
(?<!...) | | | |
核心规则
记忆口诀
小于号向左看,等号是肯定,感叹号是否定
重要特性
| |
|---|
| 零宽断言 | |
| 不包含在匹配结果中 | 断言部分不会出现在 match.group() 里 |
| 不影响位置索引 | |
2.3 完整正则的含义
(?<!\d) 1 \d{10} (?!\d)
↑ ↑ ↑ ↑
前面 第1 后续 后面
不是 位 10位 不是
数字 是1 数字 数字
整句话的意思是:匹配一个 前面不是数字、后面也不是数字 的 1 开头、总共 11 位 的数字串。
2.4 为什么要这么写?
举例说明:
| | | |
|---|
"电话13812345678" | (?<!\d)1\d{10}(?!\d) | | |
"13812345678" | (?<!\d)1\d{10}(?!\d) | | |
"139123456789" | (?<!\d)1\d{10}(?!\d) | | 数字有12位,后面还有一个数字9,(?!\d)检查失败 |
"113912345678" | (?<!\d)1\d{10}(?!\d) | | |
如果不加前后断言会怎样?
使用简单的 1\d{10}:
| | |
|---|
"139123456789" | | |
"113912345678" | | |
加上前后断言后,确保匹配到的是独立的11位数字,而不是更长数字串的一部分。
2.5 re.search() 的使用
match = re.search(pattern, str(text))
return match.group() if match else ""
区别示例:
text = "我的电话是13812345678"
re.search(r'1\d{10}', text) # ✅ 找到 "13812345678"
re.match(r'1\d{10}', text) # ❌ 找不到,因为开头是"我的电话是"
💡 小贴士:提取手机号一定要用 re.search(),不要用 re.match()!
第三步:编写金额提取函数
def extract_amount(text):
if pd.isna(text):
return ""
patterns = [
r'金额[:]?\s*(\d+)',
r'货款\s*(\d+)',
r'(\d+)\s*元',
]
for pattern in patterns:
match = re.search(pattern, str(text))
if match:
return match.group(1)
return ""
3.1 为什么要用多个正则?
客户备注里的金额写法五花八门:
一个正则很难覆盖所有情况,所以用多个正则依次尝试,哪个匹配成功就返回哪个。
3.2 三个正则详解
第一个正则:r'金额[:]?\s*(\d+)'
适用场景:匹配带“金额”关键词的数字(可能有冒号)
逐符号拆解:
- •
[:]?
[:] 表示匹配一个冒号(中文冒号“:”),? 表示前面的字符出现0次或1次(可有可无) - •
\s*
\s 表示空白字符(空格、制表符等),* 表示重复0次或多次 - •
(\d+)
() 表示捕获分组,\d 表示数字,+ 表示重复1次或多次。整体意思是:捕获一串连续数字
整体含义:匹配“金额”后面可能有冒号、可能有空格,再跟一串数字,并把数字捕获出来。
匹配示例:金额450、金额:800、金额 1000
第二个正则:r'货款\s*(\d+)'
适用场景:匹配带“货款”关键词的数字
逐符号拆解:
- •
\s*
\s 表示空白字符(空格、制表符等),* 表示重复0次或多次 - •
(\d+)
() 表示捕获分组,\d 表示数字,+ 表示重复1次或多次。整体意思是:捕获一串连续数字
整体含义:匹配“货款”后面可能有空格,再跟一串数字,并把数字捕获出来。
匹配示例:货款258、货款 3000
第三个正则:r'(\d+)\s*元'
适用场景:匹配以“元”结尾的数字(可能没有关键词)
逐符号拆解:
- •
(\d+)
() 表示捕获分组,\d 表示数字,+ 表示重复1次或多次。整体意思是:捕获一串连续数字 - •
\s*
\s 表示空白字符(空格、制表符等),* 表示重复0次或多次
整体含义:匹配一串数字,后面可能有空格,再跟“元”字,并把数字捕获出来。
匹配示例:500元、1000 元
三个正则对比总结
| | | |
|---|
金额[:]?\s*(\d+) | | | |
货款\s*(\d+) | | | |
(\d+)\s*元 | | | |
为什么用 + 而不是 {10}?
金额的位数不固定(可能是 5 元,也可能是 5000 元),所以用 + 更灵活。
3.3 括号 () 的作用
match.group(1) # 返回第一个括号里捕获的内容
正则中 (\d+) 的括号表示捕获组,会把匹配到的数字单独存起来。match.group(1) 就是取第一个捕获组的内容。
如果不加括号,match.group() 会返回整个匹配(比如 金额450),而不是纯数字。
3.4 循环尝试匹配
for pattern in patterns:
match = re.search(pattern, str(text))
if match:
return match.group(1)
按顺序尝试每个正则,一旦匹配成功就立即返回数字,不再尝试后面的正则。如果所有正则都不匹配,返回空字符串。
💡 小贴士:如果实际数据中还有其他写法(如“价格500”、“小计300”),只需要在 patterns 列表里添加对应的正则即可,非常容易扩展。
第四步:主处理函数
def process_remarks(input_file, output_file, remark_col="客户备注"):
input_path = Path(input_file)
output_path = Path(output_file)
output_path.parent.mkdir(parents=True, exist_ok=True)
df = pd.read_excel(input_path)
df["提取手机号"] = df[remark_col].apply(extract_phone)
df["提取金额"] = df[remark_col].apply(extract_amount)
df.to_excel(output_path, index=False)
print(f"完成!共 {len(df)} 条,输出:{output_path}")
4.1 Path 处理路径
input_path = Path(input_file)
output_path = Path(output_file)
output_path.parent.mkdir(parents=True, exist_ok=True)
- •
output_path.parent 获取输出文件所在的文件夹路径 - •
mkdir(parents=True, exist_ok=True) 自动创建文件夹(如果不存在)
4.2 读取和写入
df = pd.read_excel(input_path)
df.to_excel(output_path, index=False)
- •
pd.read_excel() 读取 Excel 文件 - •
df.to_excel() 保存结果,index=False 表示不写入行号
4.3 apply() 批量应用函数
df["提取手机号"] = df[remark_col].apply(extract_phone)
df["提取金额"] = df[remark_col].apply(extract_amount)
apply() 是 pandas 中非常强大的方法:
- •
.apply(extract_phone) 把这一列的每个单元格依次传给 extract_phone 函数处理 - • 返回的结果组成新的一列,赋值给
df["提取手机号"]
等价于写一个循环:
phones = []
for text in df[remark_col]:
phones.append(extract_phone(text))
df["提取手机号"] = phones
apply() 一行代码代替了4行循环,更简洁高效。
第五步:程序入口
if __name__ == "__main__":
process_remarks("订单备注.xlsx", "订单备注_提取结果.xlsx")
- • 当直接运行这个
.py 文件时,__name__ 的值为 "__main__",函数会被执行 - • 当被其他文件
import 时,函数不会自动执行
📚 本期核心知识点
📍 知识点 1:正则表达式的负向断言
推荐使用负向断言匹配手机号,比 \b 更可靠。
📍 知识点 2:多个正则依次尝试
patterns = [pattern1, pattern2, pattern3]
for pattern in patterns:
match = re.search(pattern, text)
if match:
return match.group(1)
当需要匹配多种格式时,用列表存储多个正则,循环尝试。这种方式易于扩展,遇到新格式只需添加新正则。
📍 知识点 3:pd.isna() 判断空值
if pd.isna(text):
return ""
Excel 中的空单元格读取后会是 NaN(Not a Number),直接用 if text: 判断会出错。pd.isna() 是 pandas 提供的空值判断函数,能正确识别 NaN。
📍 知识点 4:apply() 批量处理
df["新列"] = df["原列"].apply(函数名)
apply() 是 pandas 批量处理的核心方法,对一列的每个单元格应用同一个函数,返回新的一列。比手写循环更简洁、更高效。
📍 知识点 5:Path().parent.mkdir() 自动创建目录
output_path.parent.mkdir(parents=True, exist_ok=True)
保存文件前自动创建父文件夹,一行代码搞定,再也不怕 FileNotFoundError。
🔄 本案例核心流程
① 读取Excel → ② 提取手机号 → ③ 提取金额 → ④ 保存结果
读取 订单备注.xlsx (pandas)
↓
对“客户备注”列的每个单元格:
↓
┌─────────────────────────────┐
│ extract_phone(): │
│ 正则匹配 (?<!\d)1\d{10}(?!\d)
│ 返回手机号或空字符串 │
└─────────────────────────────┘
↓
┌─────────────────────────────┐
│ extract_amount(): │
│ 依次尝试3个正则 │
│ 匹配成功则返回数字 │
└─────────────────────────────┘
↓
添加“提取手机号”“提取金额”两列
↓
保存为 订单备注_提取结果.xlsx
↓
输出“完成!共 N 条”
🗳️ 点单时间到! 🗳️
下期写什么?你来定,我来写。
评论区见!👇
📦 资源获取提示
关注「码农自习室」,后台回复关键词 PythonExcel案例,即可获取本文完整代码及配套练习数据集,一起动手掌握高效数据操作的核心技巧!
❤️ 支持我们
如果本文对你有帮助,欢迎点赞 + 关注 + 点亮小红心,你的支持就是我们持续创作的最大动力~