当前位置：首页>python>Python 玩转 Excel 案例【第 21 期】:电商运营必备!从客户备注中批量提取手机号和金额

Python 玩转 Excel 案例【第 21 期】:电商运营必备!从客户备注中批量提取手机号和金额

2026-06-29 18:54:11

Python 玩转 Excel 案例【第 21 期】：电商运营必备！从客户备注中批量提取手机号和金额

📌 案例说明

原始数据表（订单备注.xlsx）：

订单号	客户备注
10001	帮别人买的，金额450元，收货人杨芳 14411118710
10002	急用！14733332513，金额10000，麻烦加急
10005	金额150元，14522229222，备注：易碎品

这是电商、客服、运营中非常常见的场景：客户备注里夹杂着手机号、金额等各种信息，需要批量提取出来变成结构化数据。

原始数据是一张订单备注表，我们需要：

1. 读取 Excel 中的备注内容
2. 用正则表达式自动识别手机号和金额
3. 提取到新列中，方便后续统计/筛选

本期案例将跟大家一起学习如何用 Python 批量从杂乱的文本中提取结构化信息，实现“一键清洗，自动提取”。

核心操作：正则表达式匹配 + 批量提取 + 自动写入新列

• 关键库：pandas、re、pathlib
• 核心逻辑：用 re 正则匹配手机号和金额，用 pandas 批量处理并写入

📜 完整代码

"""
从Excel备注中批量提取手机号和金额
"""

import pandas as pd
import re
from pathlib import Path

def extract_phone(text):
    if pd.isna(text):
        return ""
    match = re.search(r'(?<!\d)1\d{10}(?!\d)', str(text))
    return match.group() if match else ""

def extract_amount(text):
    if pd.isna(text):
        return ""
    patterns = [
        r'金额[：]?\s*(\d+)',
        r'货款\s*(\d+)',
        r'(\d+)\s*元',
    ]
    for pattern in patterns:
        match = re.search(pattern, str(text))
        if match:
            return match.group(1)
    return ""

def process_remarks(input_file, output_file, remark_col="客户备注"):
    input_path = Path(input_file)
    output_path = Path(output_file)
    output_path.parent.mkdir(parents=True, exist_ok=True)

    df = pd.read_excel(input_path)
    df["提取手机号"] = df[remark_col].apply(extract_phone)
    df["提取金额"] = df[remark_col].apply(extract_amount)
    df.to_excel(output_path, index=False)

    print(f"完成！共 {len(df)} 条，输出：{output_path}")

if __name__ == "__main__":
    process_remarks("订单备注.xlsx", "订单备注_提取结果.xlsx")

运行结果（订单备注_提取结果.xlsx）：

订单号	客户备注	提取手机号	提取金额
10001	帮别人买的，金额450元，收货人杨芳 14411118710	14411118710	450
10002	急用！14733332513，金额10000，麻烦加急	14733332513	10000
10005	金额150元，14522229222，备注：易碎品	14522229222	150

💡 结果分析：每条备注中的手机号和金额被自动提取到新列，没有手机号或金额的留空，方便后续统计客户联系方式和订单金额分布。

第一步：导入所需库

import pandas as pd
import re
from pathlib import Path

代码解释：

• import pandas as pd
导入 pandas 库，用于读取 Excel 文件、处理数据、保存结果。pandas 能自动将 Excel 表格解析为 DataFrame 结构，方便批量操作。
• import re
导入 Python 内置的正则表达式库，这是本次案例的核心工具。正则表达式可以快速在文本中查找匹配特定模式的字符串（如手机号、金额）。
• from pathlib import Path
导入 Path 类，用于处理文件路径，比传统的 os.path 更简洁直观。

💡 小贴士：re 是 Python 标准库，不需要额外安装，直接用就行。

第二步：编写手机号提取函数

def extract_phone(text):
    if pd.isna(text):
        return ""
    match = re.search(r'(?<!\d)1\d{10}(?!\d)', str(text))
    return match.group() if match else ""

2.1 处理空值

if pd.isna(text):
    return ""

pd.isna(text) 检查单元格是否为空（NaN）。如果备注为空，直接返回空字符串，避免后续报错。

2.2 手机号正则表达式（逐符号拆解）

pattern = r'(?<!\d)1\d{10}(?!\d)'

这个正则看起来有点无从下手，我们一个符号一个符号拆开看：

第一部分：(?<!\d)

符号	含义	说明
`(`	分组开始	表示一个组合的开始
`?`	模式修饰符	跟在 `(` 后面，表示这不是普通的捕获分组，而是特殊模式
`<`	方向指示	表示“向前看”（左边），检查前面的字符
`!`	否定	表示“不是”
`\d`	数字	匹配任意一个数字（0-9）
`)`	分组结束	组合结束

连起来 (?<!\d) 的意思是：当前位置的前面不是一个数字。

这是一种“零宽断言”，意思是：它只做检查，不消耗字符，也不会把检查的字符算进匹配结果里。

举个例子："abc123" 中，如果我们匹配 (?<!\d)1：

• 检查 1 前面的字符是 c（不是数字）→ 条件满足 ✅
• 匹配到 1

第二部分：1

符号	含义
`1`	数字1

直接匹配字符 1。中国大陆手机号第一位固定是 1。

第三部分：\d{10}

符号	含义	说明
`\d`	数字	匹配任意一个数字（0-9）
`{10}`	重复次数	前面的 `\d` 重复 10 次

连起来 \d{10} 的意思是：连续 10 个数字。

加上前面的 1，一共就是 1 + 10 = 11 位数字。

第四部分：(?!\d)

符号	含义	说明
`(`	分组开始	表示一个组合的开始
`?`	模式修饰符	跟在 `(` 后面，表示特殊模式
`!`	否定	表示“不是”
`\d`	数字	匹配任意一个数字（0-9）
`)`	分组结束	组合结束

连起来 (?!\d) 的意思是：当前位置的后面不是一个数字。

这也是零宽断言，只做检查，不消耗字符。

📝 零宽断言速查笔记

四个断言速查表

符号	方向	含义	记忆技巧
`(?=...)`	向右（后面）	后面是...	无 `<` = 向右，无 `!` = 肯定
`(?!...)`	向右（后面）	后面不是...	无 `<` = 向右，有 `!` = 否定
`(?<=...)`	向左（前面）	前面是...	有 `<` = 向左，无 `!` = 肯定
`(?<!...)`	向左（前面）	前面不是...	有 `<` = 向左，有 `!` = 否定

核心规则

规则	说明
有 `<`	向左看（检查前面）
没有 `<`	向右看（检查后面）
有 `!`	否定（不是）
没有 `!`	肯定（是）

记忆口诀

小于号向左看，等号是肯定，感叹号是否定

重要特性

特性	说明
零宽断言	只做检查，不消耗字符
不包含在匹配结果中	断言部分不会出现在 `match.group()` 里
不影响位置索引	断言检查的字符仍可被后续正则匹配

2.3 完整正则的含义

 (?<!\d)   1     \d{10}    (?!\d)
   ↑     ↑      ↑        ↑
  前面    第1     后续      后面
  不是    位      10位      不是
  数字    是1     数字      数字

整句话的意思是：匹配一个 前面不是数字、后面也不是数字 的 1 开头、总共 11 位 的数字串。

2.4 为什么要这么写？

举例说明：

文本	正则匹配	结果	原因
`"电话13812345678"`	`(?<!\d)1\d{10}(?!\d)`	✅ 匹配 `13812345678`	前面是`话`(非数字)，后面是`"`(非数字)
`"13812345678"`	`(?<!\d)1\d{10}(?!\d)`	✅ 匹配 `13812345678`	前面是开头(非数字)，后面是结尾(非数字)
`"139123456789"`	`(?<!\d)1\d{10}(?!\d)`	❌ 不匹配	数字有12位，后面还有一个数字`9`，`(?!\d)`检查失败
`"113912345678"`	`(?<!\d)1\d{10}(?!\d)`	❌ 不匹配	前面是数字`1`，`(?<!\d)`检查失败

如果不加前后断言会怎样？

使用简单的 1\d{10}：

文本	匹配结果	问题
`"139123456789"`	匹配到 `13912345678`	❌ 从12位数字里错误提取了前11位
`"113912345678"`	匹配到 `13912345678`	❌ 从中间错误提取

加上前后断言后，确保匹配到的是独立的11位数字，而不是更长数字串的一部分。

2.5 `re.search()` 的使用

match = re.search(pattern, str(text))
return match.group() if match else ""

函数	作用
`re.search()`	在整个字符串中搜索第一个匹配的位置
`re.match()`	只能从字符串开头匹配

区别示例：

text = "我的电话是13812345678"

re.search(r'1\d{10}', text)  # ✅ 找到 "13812345678"
re.match(r'1\d{10}', text)   # ❌ 找不到，因为开头是"我的电话是"

💡 小贴士：提取手机号一定要用 re.search()，不要用 re.match()！

第三步：编写金额提取函数

def extract_amount(text):
    if pd.isna(text):
        return ""
    patterns = [
        r'金额[：]?\s*(\d+)',
        r'货款\s*(\d+)',
        r'(\d+)\s*元',
    ]
    for pattern in patterns:
        match = re.search(pattern, str(text))
        if match:
            return match.group(1)
    return ""

3.1 为什么要用多个正则？

客户备注里的金额写法五花八门：

• 金额450元
• 金额10000（没有“元”字）
• 货款258
• 500元（没有“金额”前缀）

一个正则很难覆盖所有情况，所以用多个正则依次尝试，哪个匹配成功就返回哪个。

3.2 三个正则详解

第一个正则：`r'金额[：]?\s*(\d+)'`

适用场景：匹配带“金额”关键词的数字（可能有冒号）

逐符号拆解：

• 金额
直接匹配汉字“金额”
• [：]?
[：] 表示匹配一个冒号（中文冒号“：”），? 表示前面的字符出现0次或1次（可有可无）
• \s*
\s 表示空白字符（空格、制表符等），* 表示重复0次或多次
• (\d+)
() 表示捕获分组，\d 表示数字，+ 表示重复1次或多次。整体意思是：捕获一串连续数字

整体含义：匹配“金额”后面可能有冒号、可能有空格，再跟一串数字，并把数字捕获出来。

匹配示例：金额450、金额：800、金额 1000

第二个正则：`r'货款\s*(\d+)'`

适用场景：匹配带“货款”关键词的数字

逐符号拆解：

• 货款
直接匹配汉字“货款”
• \s*
\s 表示空白字符（空格、制表符等），* 表示重复0次或多次
• (\d+)
() 表示捕获分组，\d 表示数字，+ 表示重复1次或多次。整体意思是：捕获一串连续数字

整体含义：匹配“货款”后面可能有空格，再跟一串数字，并把数字捕获出来。

匹配示例：货款258、货款 3000

第三个正则：`r'(\d+)\s*元'`

适用场景：匹配以“元”结尾的数字（可能没有关键词）

逐符号拆解：

• (\d+)
() 表示捕获分组，\d 表示数字，+ 表示重复1次或多次。整体意思是：捕获一串连续数字
• \s*
\s 表示空白字符（空格、制表符等），* 表示重复0次或多次
• 元
直接匹配汉字“元”

整体含义：匹配一串数字，后面可能有空格，再跟“元”字，并把数字捕获出来。

匹配示例：500元、1000 元

三个正则对比总结

正则	必须有	可选	捕获
`金额[：]?\s*(\d+)`	“金额”	冒号、空格	数字
`货款\s*(\d+)`	“货款”	空格	数字
`(\d+)\s*元`	“元”	空格	数字

为什么用 `+` 而不是 `{10}`？

符号	含义	说明
`+`	重复1次或多次	匹配1位到多位数字（如 5、500、5000）
`{10}`	重复恰好10次	只匹配10位数字

金额的位数不固定（可能是 5 元，也可能是 5000 元），所以用 + 更灵活。

3.3 括号 `()` 的作用

match.group(1)  # 返回第一个括号里捕获的内容

正则中 (\d+) 的括号表示捕获组，会把匹配到的数字单独存起来。match.group(1) 就是取第一个捕获组的内容。

如果不加括号，match.group() 会返回整个匹配（比如 金额450），而不是纯数字。

3.4 循环尝试匹配

for pattern in patterns:
    match = re.search(pattern, str(text))
    if match:
        return match.group(1)

按顺序尝试每个正则，一旦匹配成功就立即返回数字，不再尝试后面的正则。如果所有正则都不匹配，返回空字符串。

💡 小贴士：如果实际数据中还有其他写法（如“价格500”、“小计300”），只需要在 patterns 列表里添加对应的正则即可，非常容易扩展。

第四步：主处理函数

def process_remarks(input_file, output_file, remark_col="客户备注"):
    input_path = Path(input_file)
    output_path = Path(output_file)
    output_path.parent.mkdir(parents=True, exist_ok=True)

    df = pd.read_excel(input_path)
    df["提取手机号"] = df[remark_col].apply(extract_phone)
    df["提取金额"] = df[remark_col].apply(extract_amount)
    df.to_excel(output_path, index=False)

    print(f"完成！共 {len(df)} 条，输出：{output_path}")

4.1 Path 处理路径

input_path = Path(input_file)
output_path = Path(output_file)
output_path.parent.mkdir(parents=True, exist_ok=True)

• 将字符串路径转换为 Path 对象
• output_path.parent 获取输出文件所在的文件夹路径
• mkdir(parents=True, exist_ok=True) 自动创建文件夹（如果不存在）

4.2 读取和写入

df = pd.read_excel(input_path)
df.to_excel(output_path, index=False)

• pd.read_excel() 读取 Excel 文件
• df.to_excel() 保存结果，index=False 表示不写入行号

4.3 `apply()` 批量应用函数

df["提取手机号"] = df[remark_col].apply(extract_phone)
df["提取金额"] = df[remark_col].apply(extract_amount)

apply() 是 pandas 中非常强大的方法：

• df[remark_col] 取出备注这一列
• .apply(extract_phone) 把这一列的每个单元格依次传给 extract_phone 函数处理
• 返回的结果组成新的一列，赋值给 df["提取手机号"]

等价于写一个循环：

phones = []
for text in df[remark_col]:
    phones.append(extract_phone(text))
df["提取手机号"] = phones

apply() 一行代码代替了4行循环，更简洁高效。

第五步：程序入口

if __name__ == "__main__":
    process_remarks("订单备注.xlsx", "订单备注_提取结果.xlsx")

• 当直接运行这个 .py 文件时，__name__ 的值为 "__main__"，函数会被执行
• 当被其他文件 import 时，函数不会自动执行
• 这是 Python 的标准入口写法

📚 本期核心知识点

📍 知识点 1：正则表达式的负向断言

写法	含义	说明
`(?<!\d)`	前面不是数字	负向零宽断言，不消耗字符
`(?!\d)`	后面不是数字	负向零宽断言，不消耗字符
`\b`	单词边界	在中文环境下可能失效

推荐使用负向断言匹配手机号，比 \b 更可靠。

📍 知识点 2：多个正则依次尝试

patterns = [pattern1, pattern2, pattern3]
for pattern in patterns:
    match = re.search(pattern, text)
    if match:
        return match.group(1)

当需要匹配多种格式时，用列表存储多个正则，循环尝试。这种方式易于扩展，遇到新格式只需添加新正则。

📍 知识点 3：`pd.isna()` 判断空值

if pd.isna(text):
    return ""

Excel 中的空单元格读取后会是 NaN（Not a Number），直接用 if text: 判断会出错。pd.isna() 是 pandas 提供的空值判断函数，能正确识别 NaN。

📍 知识点 4：`apply()` 批量处理

df["新列"] = df["原列"].apply(函数名)

apply() 是 pandas 批量处理的核心方法，对一列的每个单元格应用同一个函数，返回新的一列。比手写循环更简洁、更高效。

📍 知识点 5：`Path().parent.mkdir()` 自动创建目录

output_path.parent.mkdir(parents=True, exist_ok=True)

保存文件前自动创建父文件夹，一行代码搞定，再也不怕 FileNotFoundError。

🔄 本案例核心流程

① 读取Excel → ② 提取手机号 → ③ 提取金额 → ④ 保存结果

读取 订单备注.xlsx (pandas)
        ↓
对“客户备注”列的每个单元格：
        ↓
┌─────────────────────────────┐
│ extract_phone():            │
│   正则匹配 (?<!\d)1\d{10}(?!\d)
│   返回手机号或空字符串        │
└─────────────────────────────┘
        ↓
┌─────────────────────────────┐
│ extract_amount():           │
│   依次尝试3个正则            │
│   匹配成功则返回数字         │
└─────────────────────────────┘
        ↓
添加“提取手机号”“提取金额”两列
        ↓
保存为 订单备注_提取结果.xlsx
        ↓
输出“完成！共 N 条”

🗳️ 点单时间到！ 🗳️

下期写什么？你来定，我来写。

评论区见！👇

📦 资源获取提示

关注「码农自习室」，后台回复关键词 PythonExcel案例，即可获取本文完整代码及配套练习数据集，一起动手掌握高效数据操作的核心技巧！

❤️ 支持我们

如果本文对你有帮助，欢迎点赞 + 关注 + 点亮小红心，你的支持就是我们持续创作的最大动力～

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Python 玩转 Excel 案例【第 21 期】:电商运营必备!从客户备注中批量提取手机号和金额

Python 玩转 Excel 案例【第 21 期】：电商运营必备！从客户备注中批量提取手机号和金额

📌 案例说明

📜 完整代码

第一步：导入所需库

第二步：编写手机号提取函数

2.1 处理空值

2.2 手机号正则表达式（逐符号拆解）

📝 零宽断言速查笔记

2.3 完整正则的含义

2.4 为什么要这么写？

2.5 `re.search()` 的使用

第三步：编写金额提取函数

3.1 为什么要用多个正则？

3.2 三个正则详解

第一个正则：`r'金额[：]?\s*(\d+)'`

第二个正则：`r'货款\s*(\d+)'`

第三个正则：`r'(\d+)\s*元'`

三个正则对比总结

为什么用 `+` 而不是 `{10}`？

3.3 括号 `()` 的作用

3.4 循环尝试匹配

第四步：主处理函数

4.1 Path 处理路径

4.2 读取和写入

4.3 `apply()` 批量应用函数

第五步：程序入口

📚 本期核心知识点

📍 知识点 1：正则表达式的负向断言

📍 知识点 2：多个正则依次尝试

📍 知识点 3：`pd.isna()` 判断空值

📍 知识点 4：`apply()` 批量处理

📍 知识点 5：`Path().parent.mkdir()` 自动创建目录

🔄 本案例核心流程

🗳️ 点单时间到！ 🗳️

📦 资源获取提示

❤️ 支持我们

最新文章

热门文章

随机文章

Python 玩转 Excel 案例【第 21 期】:电商运营必备!从客户备注中批量提取手机号和金额

Python 玩转 Excel 案例【第 21 期】：电商运营必备！从客户备注中批量提取手机号和金额

📌 案例说明

📜 完整代码

第一步：导入所需库

第二步：编写手机号提取函数

2.1 处理空值

2.2 手机号正则表达式（逐符号拆解）

📝 零宽断言速查笔记

2.3 完整正则的含义

2.4 为什么要这么写？

2.5 re.search() 的使用

第三步：编写金额提取函数

3.1 为什么要用多个正则？

3.2 三个正则详解

第一个正则：r'金额[：]?\s*(\d+)'

第二个正则：r'货款\s*(\d+)'

第三个正则：r'(\d+)\s*元'

三个正则对比总结

为什么用 + 而不是 {10}？

3.3 括号 () 的作用

3.4 循环尝试匹配

第四步：主处理函数

4.1 Path 处理路径

4.2 读取和写入

4.3 apply() 批量应用函数

第五步：程序入口

📚 本期核心知识点

📍 知识点 1：正则表达式的负向断言

📍 知识点 2：多个正则依次尝试

📍 知识点 3：pd.isna() 判断空值

📍 知识点 4：apply() 批量处理

📍 知识点 5：Path().parent.mkdir() 自动创建目录

🔄 本案例核心流程

🗳️ 点单时间到！ 🗳️

📦 资源获取提示

❤️ 支持我们

四年级看不懂Python报错?这3步比背术语有用

Python学习第18天 | PyQt6 常用控件全详解(附完整代码案例)

最新文章

热门文章

随机文章

2.5 `re.search()` 的使用

第一个正则：`r'金额[：]?\s*(\d+)'`

第二个正则：`r'货款\s*(\d+)'`

第三个正则：`r'(\d+)\s*元'`

为什么用 `+` 而不是 `{10}`？

3.3 括号 `()` 的作用

4.3 `apply()` 批量应用函数

📍 知识点 3：`pd.isna()` 判断空值

📍 知识点 4：`apply()` 批量处理

📍 知识点 5：`Path().parent.mkdir()` 自动创建目录