老板又在催报表了。你打开那个500MB的Excel,电脑风扇开始哀嚎,鼠标转圈圈……你心里只有一个念头:要是能像刷短视频一样,让这些数据“唰”一下自己排好队,那该多好。
没错,我说的就是Python。
很多人以为Python搞Excel只是替代VBA,那就太小看它了。它能让你处理10万行数据的速度提升500%,能让你每天重复的报表工作变成一键生成,甚至能让报表在半夜自动刷新,第二天一早发到你邮箱。
我用Python处理Excel已经五年,从最开始的openpyxl,到后来的pandas、xlwings,踩过的坑比写过的代码还多。今天这篇文章,就是把我五年积累的全部经验,整理成一套“选刀-磨刀-用刀”的完整指南。
选错刀,累死牛。 接下来我说的每一句话,都值你半小时的百度时间。
Python操作Excel的库多到数不清,但常用的也就这几把“刀”:openpyxl、pandas、xlwings、xlsxwriter。
新手最容易犯的错,就是拿砍骨刀去切豆腐——用openpyxl读10万行数据,或者用pandas去改单元格背景色。结果不是慢成狗,就是根本办不到。
选工具的核心逻辑,就是看你的真实需求是什么:
| 你的需求是什么 | 最佳选择 | 一句话说清优势 |
|---|---|---|
| 读数据,做分析,算指标 | pandas | read_excel() 数据全进来,玩似的。 |
| 读写已有文件,改格式、加公式 | openpyxl | |
| 纯生成新报表,追求“速度与激情” | xlsxwriter | 写入速度是openpyxl的3-5倍! |
| 操控Excel程序本身,刷新透视表、跑宏 | xlwings |
举个实际场景:
销售小王每天要合并10个分公司的Excel报表,然后做透视分析,最后生成一张带格式的总结报告发给老板。
他的最佳操作流是:pandas(合并+分析) → xlsxwriter(快速写入数据+基础格式) → openpyxl(精细化修饰格式) → xlwings(自动打开文件刷新图表)。
明白了吗?没有一把“万能刀”。但组合起来,你就是庖丁,Excel是那头牛。
当你的需求是“读一个已有的Excel,改点内容,加个颜色,调下格式,再存回去”,openpyxl就是你的标准答案。
它像一个细心的装修队,能读懂Excel文件的每一处细节(样式、公式、图表),也能按你的要求进行精装修。
openpyxl的世界围绕三个核心转:Workbook(工作簿)、Worksheet(工作表)、Cell(单元格)。
import openpyxl
# 1. 读取文件
wb = openpyxl.load_workbook("销售数据.xlsx") # 打开工作簿
ws = wb["Sheet1"] # 选中名为“Sheet1”的工作表,或者用 wb.active 选当前激活的
# 2. 读取数据(三种姿势,总有一款适合你)
title = ws["A1"].value # 姿势一:像Excel一样用坐标 “A1”
price = ws.cell(row=5, column=3).value # 姿势二:用行号列号 (第5行,第3列)
# 姿势三(处理大表必备):用迭代器,省内存!
for row in ws.iter_rows(min_row=2, values_only=True): # 从第2行开始,只取值
date, product, sales = row # 直接解包
# 处理你的数据...
# 3. 写入并保存
ws["A1"] = "2024年销售总览"# 写入新标题
ws.cell(row=10, column=5, value=99999) # 在E10单元格写入数字
wb.save("修改后_销售数据.xlsx") # 另存为新文件!千万别直接覆盖原文件
wb.close() # 好习惯,关闭文件释放内存
一张专业的报表,格式占一半分数。Openpyxl的样式设置稍微有点啰嗦,但功能强大。直接复制这段代码去改:
from openpyxl.styles import Font, PatternFill, Alignment, Border, Side
# 先定义“涂料”(样式对象)
header_fill = PatternFill(start_color="2F5496", end_color="2F5496", fill_type="solid") # 深蓝色背景
header_font = Font(name="微软雅黑", size=12, bold=True, color="FFFFFF") # 白色加粗字体
center_align = Alignment(horizontal="center", vertical="center") # 居中
thin_border = Border(left=Side(style="thin"), right=Side(style="thin"),
top=Side(style="thin"), bottom=Side(style="thin")) # 细边框
money_format = "#,##0.00"# 千分位,两位小数
# 然后“刷墙”(应用到单元格)
ws["A1"].font = header_font
ws["A1"].fill = header_fill
ws["A1"].alignment = center_align
ws["A1"].border = thin_border
ws["B2"].number_format = money_format # 数字格式
# 批量“刷墙”:把第一行都设置成漂亮表头
for cell in ws[1]: # ws[1] 表示第一行所有单元格
cell.fill = header_fill
cell.font = header_font
cell.alignment = center_align
想让销售额大于10万的自动标红?想让用户只能在下拉列表里选城市?Openpyxl轻松搞定。
from openpyxl.formatting.rule import CellIsRule
from openpyxl.worksheet.datavalidation import DataValidation
# 条件格式:B列大于100000的标红
red_fill = PatternFill(start_color="FF6B6B", end_color="FF6B6B", fill_type="solid")
ws.conditional_formatting.add("B2:B1000",
CellIsRule(operator="greaterThan", formula=["100000"], fill=red_fill)
)
# 数据验证:在A列创建城市下拉列表
dv = DataValidation(type="list", formula1='"北京,上海,广州,深圳"', allow_blank=True)
dv.errorTitle = "输入错误"
dv.error = "请从列表中选择城市!"
ws.add_data_validation(dv)
dv.add("A2:A1000") # 应用到A2到A1000单元格
Openpyxl默认会把整个Excel文件加载到内存里。如果你打开一个100MB的文件,内存占用可能飙到1GB。
解决办法:启动“只读模式”。
# 用这个参数,内存占用立减90%
wb = openpyxl.load_workbook("超级大的文件.xlsx", read_only=True)
ws = wb.active
# 注意!只读模式下,你只能像读流水账一样一行行读,不能随机访问,也不能修改。
for row in ws.iter_rows(values_only=True):
# 处理每一行数据
pass
wb.close()
如果你的目标是分析数据,而不是折腾单元格格式,请直接上pandas。它会把你从Excel的函数公式里彻底解放出来。
你可以把它想象成一个超级智能的Excel透视表+筛选器+计算器合体。
Pandas的read_excel函数强大到令人发指,你可以精确控制要读什么。
import pandas as pd
# 基础读法
df = pd.read_excel("data.xlsx", sheet_name="销售数据") # df 就是一个强大的 DataFrame 对象
print(df.head()) # 看一眼前5行
# 高级读法:我只想要某些列,跳过乱七八糟的表头
# 这招对付从系统导出的“脏”表格特别管用
df = pd.read_excel("data.xlsx",
usecols=["日期", "产品", "销售额"], # 只读这三列
skiprows=3, # 跳过前3行(比如公司logo和空行)
nrows=10000) # 只读10000行,避免内存爆炸
# 一键读取所有工作表,返回一个“工作表名: DataFrame”的字典
all_sheets = pd.read_excel("data.xlsx", sheet_name=None)
for sheet_name, sheet_data in all_sheets.items():
print(f"工作表【{sheet_name}】有 {len(sheet_data)} 行数据")
这才是pandas的精华。下面这些操作,在Excel里你要折腾半天,在这里就是一行代码。
# 1. 筛选:找出北京地区销售额大于5万的订单
high_sales_bj = df[(df["地区"] == "北京") & (df["销售额"] > 50000)]
# 2. 分组聚合:按地区统计销售总额、平均单价、订单数
summary = df.groupby("地区", as_index=False).agg(
销售总额=("销售额", "sum"),
平均单价=("单价", "mean"),
订单数=("订单号", "nunique") # nunique是统计不重复的个数,很重要!
)
# 3. 透视表:制作地区vs月份的销售额汇总
groupby等分组操作是行转列,pivot_table则直接输出二维报表。
pivot_table = df.pivot_table(
values="销售额", # 要计算的值
index="地区", # 行标签
columns="月份", # 列标签
aggfunc="sum", # 聚合函数(求和)
fill_value=0# 空值填0
)
# 4. 新增计算列:计算环比增长、累计占比
df["环比增长"] = df.groupby("产品")["销售额"].pct_change() # 同产品比上月
# 累计销售额占比
# `cumsum()`是计算累计和。
df["累计占比"] = df["销售额"].cumsum() / df["销售额"].sum()
# 5. 排序取TOP10
top10_products = df.groupby("产品")["销售额"].sum().nlargest(10)
Pandas写Excel同样方便,配合ExcelWriter,可以轻松制作多工作表报告。
# 准备三个分析结果
df_raw = ... # 原始数据
df_summary = ... # 汇总表
df_pivot = ... # 透视表
# 使用 ExcelWriter 一次性写入多个sheet
with pd.ExcelWriter("分析报告.xlsx", engine="openpyxl") as writer:
df_raw.to_excel(writer, sheet_name="原始数据", index=False)
df_summary.to_excel(writer, sheet_name="数据汇总", index=False)
df_pivot.to_excel(writer, sheet_name="月度透视")
# 小提示:to_excel 里的 index=False 通常建议加上,避免多出一列行号。
一个黄金组合:Pandas + Openpyxl
Pandas写数据快,但设置复杂格式麻烦。Openpyxl设格式强,但处理大量数据慢。所以业内标准做法是:
to_excel把结果数据快速写进Excel。当你需要从零生成一个全新的、格式复杂的、数据量巨大的报表时,xlsxwriter是你的不二之选。
它只写不读,像个专注的印刷机,速度极快。而且它的API设计让你可以边写数据边设定格式,一气呵成。
import xlsxwriter
wb = xlsxwriter.Workbook("超快报表.xlsx")
ws = wb.add_worksheet("业绩看板") # 创建工作表
# 1. 定义格式(像定义CSS样式一样,可以重复使用)
header_style = wb.add_format({
"bold": True,
"font_color": "white",
"bg_color": "#2F5496", # 蓝色背景
"align": "center",
"valign": "vcenter",
"border": 1,
"font_size": 12
})
money_style = wb.add_format({"num_format": "#,##0.00", "align": "right"})
# 2. 设置列宽(让表格更美观)
ws.set_column("A:A", 15) # A列宽15
ws.set_column("B:E", 10) # B到E列宽10
# 3. 写入带格式的表头
headers = ["日期", "产品", "销量", "单价", "销售额"]
for col, header in enumerate(headers): # enumerate 能同时拿到索引和值
ws.write(0, col, header, header_style) # 第0行,第col列
# 4. 写入数据(每条数据都可以单独套格式)
data = [
["2024-01-15", "产品A", 120, 50.0, "=C2*D2"], # 销售额用公式计算!
["2024-01-16", "产品B", 85, 80.0, "=C3*D3"],
]
for row_idx, row_data in enumerate(data, 1): # 从第1行开始写(第0行是表头)
for col_idx, cell_value in enumerate(row_data):
style = money_style if col_idx in [3, 4] elseNone# 单价和销售额列用货币格式
ws.write(row_idx, col_idx, cell_value, style)
# 5. 插入图表(让你的报表生动起来)
chart = wb.add_chart({"type": "column"}) # 柱状图
# 告诉图表数据从哪里来
chart.add_series({
"name": "销售额",
"categories": "=业绩看板!$B$2:$B$3", # 产品名称作为X轴
"values": "=业绩看板!$E$2:$E$3", # 销售额作为Y轴
})
chart.set_title({"name": "产品销售对比图"})
ws.insert_chart("G2", chart) # 把图表插入到G2单元格的位置
wb.close()
print("报表生成完毕!速度飞快!")
记住:xlsxwriter不能修改已有文件,它是纯粹的“生成器”。但它生成的速度和效果,是顶级的。
上面三个库,都是在“文件层面”操作Excel。而xlwings更狠,它直接操控Excel这个软件本身。
这意味着,所有你能在Excel里手动完成的操作——点鼠标、刷新透视表、运行VBA宏、甚至弹窗提示——xlwings都能用Python代码帮你自动完成。
import xlwings as xw
import pandas as pd
# 1. 启动Excel程序(可以看不见,也可以让它显示出来)
app = xw.App(visible=True) # visible=True 让你能看到Excel被打开操作的过程,很炫酷
wb = app.books.open("需要刷新的报表.xlsx") # 打开文件
ws = wb.sheets["Sheet1"]
# 2. 像VBA一样读写单元格
ws.range("A1").value = "数据已更新:" + str(pd.Timestamp("today"))
# 读取一块区域,直接变成Python的列表,或者Pandas的DataFrame!
table_data = ws.range("A1:E100").options(pd.DataFrame, index=False, header=True).value
# 3. 设置格式(颜色、字体、边框)
ws.range("A1:E1").color = (68, 114, 196) # RGB颜色,设置表头背景为蓝色
ws.range("A1:E1").api.Font.Color = 0xFFFFFF# 设置字体为白色 (.api是通往VBA世界的大门)
ws.range("A1:E1").api.Font.Bold = True# 设置加粗
# 4. 核心技能:刷新所有数据透视表和数据连接
# 这功能太实用了!报表数据源更新后,一键全刷新。
for sheet in wb.sheets:
for pivot_table in sheet.api.PivotTables(): # 遍历所有透视表
pivot_table.RefreshTable()
# 还可以刷新Power Query等数据连接
# sheet.api.QueryTables.Item(1).Refresh()
# 5. 调用现有的VBA宏
# 如果公司有现成的复杂宏,直接调用,不用重写!
wb.macro("GenerateCharts")() # 执行名为 GenerateCharts 的宏
# 6. 最后,保存、关闭、退出
wb.save("刷新后的报表.xlsx")
wb.close()
app.quit() # 关闭Excel程序
❝每天凌晨2点,Python脚本自动运行:
从数据库拉取最新销售数据。 用pandas清洗计算。 用xlsxwriter生成包含图表的初步报表。 用xlwings打开报表,刷新其中的透视表和外部数据链接。 将最终报表保存为PDF,并发送邮件给相关领导。
从此,你不再是做报表的人,你是设计报表流水线的人。
当Excel文件变成“巨无霸”,常规方法就失灵了。下面是几条救命的实战经验:
策略一:从源头解决,用.xlsb格式
如果数据源你能控制,强烈要求导出为 .xlsb(Excel二进制格式)。它比.xlsx小很多,读取速度快2-3倍。
# pandas 读取 .xlsb 需要 pyxlsb 引擎
# 先安装:pip install pyxlsb
df = pd.read_excel("data.xlsb", engine="pyxlsb")
策略二:精准读取,不要全盘照收
用pandas的usecols和nrows参数,只读取你需要的列和行,内存占用立竿见影。
# 一个100列的文件,我可能只关心其中5列
df = pd.read_excel("huge.xlsx",
usecols=["订单号", "日期", "金额", "客户", "产品"],
nrows=500000) # 只读前50万行
策略三:化整为零,分块处理(终极方案)
如果文件实在太大,内存装不下,就用“分块读取,逐块处理”的策略。
import openpyxl
wb = openpyxl.load_workbook("巨型文件.xlsx", read_only=True)
ws = wb.active
chunk_size = 10000# 每1万行处理一次
chunk = []
for i, row in enumerate(ws.iter_rows(values_only=True), start=1):
chunk.append(row)
if i % chunk_size == 0: # 攒够1万行
process_chunk(chunk) # 你的处理函数
chunk = [] # 清空,准备下一块
print(f"已处理 {i} 行...")
# 处理最后剩下的不足1万行的数据
if chunk:
process_chunk(chunk)
wb.close()
策略四:写入优化,减少保存次数
用openpyxl时,切记把所有修改都做完,最后只保存一次。在循环里频繁save(),会慢到让你怀疑人生。
最后,分享三个我总结的高频工作流模板,直接复制修改就能用。
(每天合并几十个分公司报表的同学,请熟读并背诵)
import pandas as pd
from pathlib import Path
from openpyxl import load_workbook
from openpyxl.styles import PatternFill, Font
# 1. 用Pandas合并文件夹下所有Excel
all_dfs = []
for file_path in Path("./每日报表").glob("*.xlsx"): # 找到所有xlsx文件
df = pd.read_excel(file_path)
df["数据来源"] = file_path.stem # 新增一列,记录是哪个分公司的数据
all_dfs.append(df)
merged_df = pd.concat(all_dfs, ignore_index=True) # 合并成一个大的DataFrame
# 2. 数据分析
summary_df = merged_df.groupby("地区").agg(
销售总额=("销售额", "sum"),
平均客单价=("销售额", "mean"),
订单数=("订单号", "nunique")
).reset_index()
# 3. 写入Excel(原始数据+汇总结果)
with pd.ExcelWriter("全国销售汇总.xlsx", engine="openpyxl") as writer:
merged_df.to_excel(writer, sheet_name="明细数据", index=False)
summary_df.to_excel(writer, sheet_name="地区汇总", index=False)
# 4. 用Openpyxl美化格式
wb = load_workbook("全国销售汇总.xlsx")
for sheet_name in ["明细数据", "地区汇总"]:
ws = wb[sheet_name]
blue_fill = PatternFill(start_color="2F5496", fill_type="solid")
white_font = Font(bold=True, color="FFFFFF")
for cell in ws[1]: # 美化第一行表头
cell.fill = blue_fill
cell.font = white_font
wb.save("全国销售汇总_美化版.xlsx")
print("合并、分析、美化,一键完成!")
(对付来源混乱、格式不一的数据,这是你的“消毒水”)
defclean_excel_data(input_path, output_path):
"""
一站式数据清洗函数:去重、删空、规范格式、过滤异常。
"""
df = pd.read_excel(input_path)
cleaned_df = (df
.drop_duplicates() # 去重
.dropna(subset=["订单号", "金额"]) # 关键字段不能为空
.assign(
# 规范日期格式
下单日期=lambda x: pd.to_datetime(x["下单日期"], errors="coerce"),
# 金额不能为负
金额=lambda x: x["金额"].clip(lower=0),
# 手机号去掉所有空格
联系电话=lambda x: x["联系电话"].astype(str).str.replace(r"\s+", "", regex=True)
)
.query("下单日期.notna()") # 删除日期格式错误的行
)
cleaned_df.to_excel(output_path, index=False)
return cleaned_df
# 使用
clean_data = clean_excel_data("原始乱数据.xlsx", "清洗后标准数据.xlsx")
(比如按地区、按月份,把总表拆给不同负责人)
df = pd.read_excel("全体客户数据.xlsx")
# 按“所属省份”拆分,每个省存一个单独的Excel文件
for province, group_df in df.groupby("所属省份"):
safe_name = str(province).replace("/", "-").replace("\\", "-")[:31] # 处理非法字符,并限制长度
group_df.to_excel(f"客户数据_{safe_name}.xlsx", index=False)
print(f"已生成: 客户数据_{safe_name}.xlsx")
回顾一下:
没有哪个库是完美的,但可把它们组合起来使用。