收集了几十个部门的表格,要一个一个打开复制粘贴?Python让你一键合并、清洗、分析、出图!
一、先看这个真实场景
王科长每个月都要做这件事:
- 全校30个班级发来各自的成绩表(Excel文件,格式一模一样)
以前他:
- 用公式算平均值 → 写VLOOKUP → 画图表 ✓
三天没了!
二、Python的“批量终结者”魔法
今天我们用10行核心代码,搞定上面所有事:
import pandas as pdimport osfrom datetime import datetime# 1. 批量读取所有Excel文件文件夹 = '各班级成绩'所有文件 = [f for f in os.listdir(文件夹) if f.endswith('.xlsx')]数据列表 = []for 文件名 in 所有文件: 文件路径 = os.path.join(文件夹, 文件名) df = pd.read_excel(文件路径) df['来源班级'] = 文件名.replace('.xlsx', '') # 添加班级列 数据列表.append(df)# 2. 合并所有数据全校数据 = pd.concat(数据列表, ignore_index=True)# 3. 数据清洗(过滤异常分数)for 列 in ['语文', '数学', '英语']: 全校数据 = 全校数据[(全校数据[列] >= 0) & (全校数据[列] <= 100)]# 4. 计算总分和平均分全校数据['总分'] = 全校数据[['语文', '数学', '英语']].sum(axis=1)全校数据['平均分'] = (全校数据['总分'] / 3).round(1)# 5. 按班级统计班级统计 = 全校数据.groupby('来源班级').agg({'语文': 'mean','数学': 'mean','英语': 'mean','总分': 'mean','姓名': 'count'}).round(1).rename(columns={'姓名': '人数'})# 6. 生成报告(带格式)with pd.ExcelWriter(f'全校成绩汇总_{datetime.now().strftime("%Y%m%d")}.xlsx') as writer: 全校数据.to_excel(writer, sheet_name='详细数据', index=False) 班级统计.to_excel(writer, sheet_name='班级统计')print(f"✅ 搞定!共处理{len(所有文件)}个文件,合并{len(全校数据)}条记录")
看懂了吗?
- 文件操作:os.listdir()遍历文件夹,pd.read_excel()读取每个文件
- 数据合并:pd.concat()把多个DataFrame拼起来
- 保存:用ExcelWriter生成多sheet的Excel报告
三、分解“魔法”:每步在干什么?
3.1 第一步:获取所有Excel文件
文件夹 = '各班级成绩'所有文件 = [f for f in os.listdir(文件夹) if f.endswith('.xlsx')]os.listdir(文件夹):列出文件夹里所有东西列表推导式:只保留以 .xlsx 结尾的文件注意:如果你的文件在别的地方,记得改路径。可以用绝对路径,如 r'C:\Users\你的名字\Desktop\各班级成绩'
3.2 第二步:逐个读取并添加班级标识
数据列表 = []for 文件名 in 所有文件: 文件路径 = os.path.join(文件夹, 文件名) df = pd.read_excel(文件路径) df['来源班级'] = 文件名.replace('.xlsx', '') 数据列表.append(df)
- os.path.join():拼接文件夹路径和文件名
- pd.read_excel():读取Excel文件到DataFrame
- 新增一列 来源班级,记录数据来自哪个文件(去掉扩展名)
3.3 第三步:合并所有数据
全校数据 = pd.concat(数据列表, ignore_index=True)pd.concat():把列表里的多个DataFrame纵向拼接ignore_index=True:重新生成行索引(0,1,2...),避免原索引重复
3.4 第四步:数据清洗
for 列 in ['语文', '数学', '英语']: 全校数据 = 全校数据[(全校数据[列] >= 0) & (全校数据[列] <= 100)]循环三科,筛选出分数在0-100之间的记录(过滤异常值)注意:这里会覆盖原数据,只保留符合条件的数据
3.5 第五步:计算总分和平均分
全校数据['总分'] = 全校数据[['语文', '数学', '英语']].sum(axis=1)全校数据['平均分'] = (全校数据['总分'] / 3).round(1)sum(axis=1):按行求和(axis=1表示横向)round(1):保留1位小数
3.6 第六步:按班级统计
班级统计 = 全校数据.groupby('来源班级').agg({'语文': 'mean','数学': 'mean','英语': 'mean','总分': 'mean','姓名': 'count'}).round(1).rename(columns={'姓名': '人数'})
- .agg({...}):对不同的列用不同的聚合函数
- .rename(columns={'姓名': '人数'}):把“姓名”列改名为“人数”
3.7 第七步:保存报告
with pd.ExcelWriter(f'全校成绩汇总_{datetime.now().strftime("%Y%m%d")}.xlsx') as writer: 全校数据.to_excel(writer, sheet_name='详细数据', index=False) 班级统计.to_excel(writer, sheet_name='班级统计')
- pd.ExcelWriter:创建Excel写入器,可以写多个sheet
- 文件名用 datetime.now().strftime("%Y%m%d") 添加当天日期,避免覆盖
- to_excel(..., sheet_name='...'):分别写入不同sheet
四、自己动手试试!
4.1 第一步:创建测试文件夹和文件
import osimport pandas as pdimport random# 创建测试文件夹测试文件夹 = '各班级成绩'os.makedirs(测试文件夹, exist_ok=True)# 生成5个班级的模拟数据班级名 = ['三(1)班', '三(2)班', '三(3)班', '三(4)班', '三(5)班']for 班级 in 班级名: 数据 = pd.DataFrame({'姓名': [f'学生{i}'for i in range(1, 11)], # 每班10个学生'语文': [random.randint(60, 100) for _ in range(10)],'数学': [random.randint(60, 100) for _ in range(10)],'英语': [random.randint(60, 100) for _ in range(10)] }) 数据.to_excel(os.path.join(测试文件夹, f'{班级}.xlsx'), index=False)print(f"✅ 已创建{len(班级名)}个测试文件在「{测试文件夹}」文件夹")
4.2 第二步:运行批量处理脚本
把第二节的核心代码复制下来,修改 文件夹 = '各班级成绩' 即可运行。
运行后你会得到:
- 一个Excel文件,名字类似 全校成绩汇总_20250221.xlsx
五、办公实战1:自动计算优秀率并美化
import pandas as pdimport osfrom datetime import datetime文件夹 = '各班级成绩'所有文件 = [f for f in os.listdir(文件夹) if f.endswith('.xlsx')]数据列表 = []for 文件名 in 所有文件: df = pd.read_excel(os.path.join(文件夹, 文件名)) df['来源班级'] = 文件名.replace('.xlsx', '') 数据列表.append(df)全校数据 = pd.concat(数据列表, ignore_index=True)# 计算各科优秀(≥90)for 科 in ['语文', '数学', '英语']: 全校数据[f'{科}优秀'] = 全校数据[科] >= 90# 按班级统计班级统计 = 全校数据.groupby('来源班级').agg( 人数=('姓名', 'count'), 语文平均=('语文', 'mean'), 数学平均=('数学', 'mean'), 英语平均=('英语', 'mean'), 语文优秀人数=('语文优秀', 'sum'), 数学优秀人数=('数学优秀', 'sum'), 英语优秀人数=('英语优秀', 'sum')).round(1)# 计算优秀率for 科 in ['语文', '数学', '英语']: 班级统计[f'{科}优秀率'] = (班级统计[f'{科}优秀人数'] / 班级统计['人数'] * 100).round(1)# 排序(按语文平均分降序)班级统计 = 班级统计.sort_values('语文平均', ascending=False)# 美化并保存with pd.ExcelWriter(f'班级优秀率统计_{datetime.now().strftime("%Y%m%d")}.xlsx', engine='openpyxl') as writer: 全校数据.to_excel(writer, sheet_name='详细数据', index=False) 班级统计.to_excel(writer, sheet_name='班级统计')print("✅ 优秀率统计完成!")
六、办公实战2:自动生成各班成绩图表
import pandas as pdimport osimport matplotlib.pyplot as pltfrom datetime import datetime文件夹 = '各班级成绩'所有文件 = [f for f in os.listdir(文件夹) if f.endswith('.xlsx')]数据列表 = []for 文件名 in 所有文件: df = pd.read_excel(os.path.join(文件夹, 文件名)) df['来源班级'] = 文件名.replace('.xlsx', '') 数据列表.append(df)全校数据 = pd.concat(数据列表, ignore_index=True)# 计算总分全校数据['总分'] = 全校_data[['语文', '数学', '英语']].sum(axis=1)# 按班级统计平均分班级平均 = 全校数据.groupby('来源班级')[['语文', '数学', '英语', '总分']].mean().round(1)# 画柱状图班级平均.plot(kind='bar', figsize=(12, 6))plt.title('各班级平均分对比')plt.ylabel('分数')plt.xlabel('班级')plt.xticks(rotation=45)plt.tight_layout()plt.savefig('班级平均分对比图.png')plt.show()# 保存数据with pd.ExcelWriter(f'成绩分析_{datetime.now().strftime("%Y%m%d")}.xlsx') as writer: 全校数据.to_excel(writer, sheet_name='详细数据', index=False) 班级平均.to_excel(writer, sheet_name='班级平均')print("✅ 分析完成,图表已保存!")
七、进阶技巧:处理文件名中的日期并筛选
有些文件命名包含日期,比如 2025-05-12 三(1)班.xlsx,我们可以提取日期,只处理特定月份的数据:
import redef 提取日期(文件名): match = re.search(r'(\d{4})-(\d{2})-(\d{2})', 文件名)if match:return datetime(int(match.group(1)), int(match.group(2)), int(match.group(3)))return None# 在读取文件时,记录日期df['文件日期'] = 提取日期(文件名)# 之后可以筛选某月数据 = 全校数据[全校数据['文件日期'].dt.month == 5] # 只保留5月的
八、重点总结:今天你学会了什么?
✅ 核心技能
- 批量读取文件:os.listdir() + pd.read_excel()
✅ 办公应用场景
✅ 效率对比
九、今日挑战:动手做!
任务1:按班级统计总分最高分和最低分
# 修改上面的代码,在班级统计中添加“最高分”和“最低分”列
任务2:筛选出有学生不及格的班级
# 找出语文、数学、英语任一科<60的学生,然后按班级统计人数
任务3:给生成的Excel添加数据条和颜色(复习第17天)
# 在保存前,对班级统计表用.style添加数据条和颜色
十、明日预告
明天学自动化邮件发送!
- 如何用Python把生成的报表自动发送邮件给领导?
真正的“无人驾驶”办公,从明天开始!
回复「Py-Day」获取今日挑战题解及完整代码。
评论区作业:分享你批量处理过的文件数量,或者晒出你的汇总报表截图!👇