当前位置：首页>python>用Python写了个自动化脚本,分享思路

用Python写了个自动化脚本,分享思路

2026-07-02 16:55:07

事情是这样的，上个月我接手了一个活，帮朋友整理公司里一堆Excel报表。不是吹，那一摞文件少说也有五六十个，每个里面七八个工作表，数据格式还他妈不统一。朋友的原话是：“猫哥，你帮我搞个程序，跑一下就行。”我想着Python搞Excel那不是分分钟的事？结果真动手才发现，坑比我想象的多。

先说说场景。朋友公司是做电商代运营的，每个月要给不同品牌方出对账报表。每个品牌一个文件夹，里面Excel文件名统一规范叫“品牌名_月份_对账单.xlsx”，但Excel里面工作表名字就五花八门了，有的叫“Sheet1”，有的叫“数据汇总”，有的叫“1月”，甚至有个叫“不要删”。每个表的结构也不一样，有的第一行是表头，有的前两行是合并单元格的标题，第三行才是真正的列名。我的任务是把所有品牌的“订单明细”和“退款明细”这两个关键表的数据提取出来，合并成一个总表，再生成一个汇总统计的Excel。

我一开始想的很简单：用pandas，read_excel，指定sheet_name，搞定。结果一跑，报错：`ValueError: Sheet name '订单明细' not in list`。打开一看，好家伙，那个工作表名字叫“订单明细表”，多了个“表”字。更骚的是，有个品牌把退款明细写在“退货单”这个工作表里，但内容其实是退款数据。所以第一个坑就来了：工作表命名不统一。

我的解决方案是，不写死工作表名，而是写一个模糊匹配的逻辑。具体做法是，先用`pd.ExcelFile`拿到所有工作表名列表，然后遍历列表，对每个表名做字符串相似度匹配。我用了`difflib.get_close_matches`，设置cutoff=0.6，把目标关键词“订单明细”和“退款明细”分别拿去匹配。如果匹配到就读取，没匹配到就报个警告并跳过。代码大概长这样：

```python
import difflib
import pandas as pd

def find_sheet_name(sheet_list, keyword, cutoff=0.6):
matches = difflib.get_close_matches(keyword, sheet_list, n=1, cutoff=cutoff)
return matches[0] if matches else None
```

这个办法解决了大部分问题，但还有更恶心的。有个品牌的Excel文件里，“订单明细”这个工作表的内容居然分成了两个工作表，一个叫“订单1-15日”，一个叫“订单16-31日”。我总不能只抓一个吧？所以我又加了一个逻辑：如果匹配到多个相似的工作表，就把它们全部读取然后用`pd.concat`纵向拼接。这里要注意索引重置，不然合并后索引会乱掉。

```python
matches = difflib.get_close_matches(keyword, sheet_list, n=3, cutoff=0.6)
if len(matches) >= 1:
dfs = [pd.read_excel(file_path, sheet_name=name) for name in matches]
df = pd.concat(dfs, ignore_index=True)
```

第二个坑是表头结构不一致。有些Excel的前面几行是合并单元格的标题，比如第一行写“XX品牌对账数据”，第二行是空的，第三行才是“订单号、商品名称、金额、日期”。pandas默认把第一行当表头，读出来就是一堆NaN。我一开始手动指定`header=2`，但不同文件表头行数不一样，有的甚至没有标题行，第一行就是数据。这就没法硬编码。

我的做法是，读取文件前先检查前几行的内容。用`pd.read_excel`先不指定header，把原始数据全读进来，然后看第一列的第一个单元格是不是中文或者包含“品牌”、“对账”这类词。如果是，就说明是标题行，需要跳过。我写了一个函数，遍历前5行，检查每一行第一列的值，如果全是数字或者日期格式，就认为这一行是真正的数据起始行。代码有点粗糙，但够用：

```python
def detect_header_row(file_path, sheet_name, max_rows=5):
df_raw = pd.read_excel(file_path, sheet_name=sheet_name, header=None, nrows=max_rows)
for i in range(max_rows):
val = df_raw.iloc[i, 0]
if pd.isna(val):
continue
try:
float(val)
return i # 第一个能转成数字的行就是数据开始
except:
if isinstance(val, str) and not any(kw in val for kw in ['品牌', '对账', '汇总']):
return i
return 0
```

这个函数返回的索引作为`skiprows`参数传给`pd.read_excel`。但注意，如果返回0，就是没有要跳过的行。实测下来，90%的文件都能正确识别，剩下10%我手动在配置里补了一个字典，指定某些文件的skiprows值。没办法，自动化做不到100%，留个后门给手动修正。

第三个坑是数据类型。Excel里的金额列，有些是文本格式，比如“1,234.56”这种带千分位逗号的，pandas读进来是字符串。还有日期列，有的存成“2024-01-15”，有的存成“2024/1/15”，有的存成“1/15/2024”，甚至有个文件把日期存成了Excel序列号（比如45292这种数字）。我统一做一个清洗：金额列用`pd.to_numeric`配合`errors='coerce'`，先把逗号去掉再转；日期列先用`pd.to_datetime`，如果报错了就尝试用`xlrd`的日期转换逻辑。这里我偷了个懒，直接用`pd.to_datetime`的`format`参数自动推断，但遇到序列号就得手动处理一下：

```python
def parse_excel_date(val):
try:
return pd.to_datetime(val)
except:
try:
# 尝试把数字当作Excel序列号处理（1900日期系统）
from datetime import datetime, timedelta
base = datetime(1899, 12, 30)
return base + timedelta(days=int(float(val)))
except:
return pd.NaT
```

第四个大坑是文件编码。Excel文件本身是二进制格式，按理说没编码问题，但朋友给的文件里有一个是.xls格式（老版Excel），不是.xlsx。pandas的`read_excel`本身支持.xls，但要装`xlrd`库，而且xlrd 2.0以上版本不支持.xlsx了，所以得同时装`openpyxl`和`xlrd`。我的`requirements.txt`里写了：

```
pandas==2.0.3
openpyxl==3.1.2
xlrd==2.0.1
```

但注意，xlrd 2.0.1默认只支持.xls，如果遇到.xlsx文件，pandas会自动切换用openpyxl或calamine。我一开始没装xlrd，结果跑.xls文件时报错：`ImportError: Missing optional dependency 'xlrd'`。装完之后又碰到一个文件报错：`xlrd.biffh.XLRDError: Excel xlsx file; not supported`。这才知道那个文件虽然是.xls后缀，但实际是xlsx格式。我干脆在代码里加了一个文件格式判断，用`openpyxl`尝试打开，如果报错再用`xlrd`。但后来发现更简单的方法：直接用`pd.read_excel`的`engine`参数，先试`openpyxl`，不行再试`xlrd`。

```python
def safe_read_excel(file_path, sheet_name, **kwargs):
for engine in ['openpyxl', 'xlrd']:
try:
return pd.read_excel(file_path, sheet_name=sheet_name, engine=engine, **kwargs)
except Exception as e:
continue
raise ValueError(f"Cannot read {file_path} with any engine")
```

第五个坑是内存。五六十个Excel，每个里面工作表又多，合并起来的数据量其实不小。我一开始直接一个个读，然后append到一个列表里，最后concat。结果跑了一半内存飙到4个G，电脑风扇狂转。我优化了一下，读每个文件的时候只保留需要的列，并且把不需要的中间变量及时删除，用`del`和`gc.collect()`。另外，把最终结果分批写入Excel，用`pd.ExcelWriter`配合`mode='a'`追加模式，而不是全部在内存里拼完再写。这样内存占用降到了1.5G左右，勉强能跑。

```python
with pd.ExcelWriter('汇总结果.xlsx', engine='openpyxl', mode='w') as writer:
for file_path in file_list:
df = process_one_file(file_path)
if df is not None:
df.to_excel(writer, sheet_name='汇总', index=False, header=False, startrow=writer.sheets['汇总'].max_row if '汇总' in writer.sheets else 0)
```

这里有个细节，如果多次写入同一个工作表，需要用`startrow`参数控制写入位置，否则会覆盖。`writer.sheets['汇总'].max_row`可以拿到当前工作表已写入的行数，这样就能追加。但注意，第一次写入时工作表还不存在，所以得判断一下。

最后说说踩坑经验总结。第一，永远不要相信Excel文件命名和结构是统一的，哪怕对方拍胸脯说“都一样”。第二，模糊匹配和自动检测表头是必备操作，但一定要留手动配置的接口，毕竟总有奇葩文件。第三，数据类型转换要写健壮，尤其是日期和金额，各种格式都有可能。第四，内存管理要提前考虑，文件多了之后pandas很容易爆内存，分批处理或逐行写入是王道。第五，报错信息不要直接抛出来就完事，最好写个日志，记录哪个文件、哪个工作表、什么原因失败，方便事后排查。

我最后给朋友交付的程序，是一个命令行工具，接受一个文件夹路径，输出一个汇总Excel和一个日志文件。运行前会先扫描所有文件，打印出每个文件的结构预览，让用户确认。确认后跑脚本，跑完自动打开汇总文件。虽然中间修修补补花了两天时间，但最终效果还行。朋友反馈说原来三个人干两天的活，现在一个人十分钟搞定。当然，他没说那十分钟里有八分钟是在等程序跑完。

代码我放在了我的GitHub仓库里，有需要的可以去看，链接就不贴了，搜“猫哥的Excel自动化”应该能找到。写了大概三百行，注释挺多的，但说实话我自己看都觉得乱，重构了几次还是乱，能用就行吧。

📎 延伸阅读

看完这篇，如果你想：

直接拿工具 → 回复"13"，我把跨境获客工具包发给你
系统学习 → 点击菜单"AI训练营"，从0开始跑通AI变现

本文由猫哥AI助手自动发布 🐱

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

用Python写了个自动化脚本,分享思路

最新文章

热门文章

随机文章

用Python写了个自动化脚本,分享思路

放弃 Python,Kimi 用 TS + Node.js 重写了一个 Kimi Code

Python物理模拟:自由落体运动

最新文章

热门文章

随机文章