做数据、做运营相关工作的同学,大概率都遇到过这种崩溃场景:
运营同事甩过来几十个Excel/CSV报表,有的按月份命名,有的按区域划分,甚至同一个文件里还有好几个工作表,要求你汇总数据、做分析、出结论。
如果一个个手动打开、复制粘贴,不仅耗时耗力,还容易出错——几十份报表,光是打开关闭都要花大半天,更别说后续的清洗和分析了。
其实不用这么麻烦!今天就给大家详细讲解,如何用Python的pandas库,批量读取、处理这几十个报表,全程自动化,省出时间摸鱼不香吗?
全程干货,从环境准备到完整示例,新手也能跟着操作,建议收藏备用~
一、先准备好必要的工具(安装库)
批量处理报表的核心工具是pandas,它是Python中专门用于数据处理的库,能轻松读取Excel、CSV等格式文件。
另外,读取Excel文件需要额外安装openpyxl(用于解析Excel的工作表),直接复制下面的命令,在电脑的终端/命令提示符里运行即可:
bash pip install pandas openpyxl |
如果提示“pip不是内部命令”,可以自行百度对应系统的解决方法,很简单,这里就不额外展开啦。
二、先搞定单个文件读取(基础操作)
批量处理的前提,是先会读取单个文件。不管是Excel还是CSV,pandas都有对应的方法,操作非常简单。
1. 读取Excel文件
假设你有一个名为“销售报表_202501.xlsx”的文件,想要读取其中“1月数据”这个工作表,代码如下:
python import pandas as pd # 读取单个Excel文件的指定sheet df = pd.read_excel('文件路径.xlsx', sheet_name='1月数据') # 打印前5行数据,查看是否读取成功 print(df.head()) |
这里有几个常用参数,一定要记好,后续批量处理会用到:
1sheet_name:指定要读取的工作表,可以是工作表名称(如“1月数据”)、索引(0代表第一个工作表,1代表第二个,以此类推),如果填None,会读取所有工作表。
1header:指定第几行为列名,默认是第0行(也就是Excel里的第一行),如果你的报表列名在第二行,就填header=1。
1usecols:只读取需要的列,比如只需要A到C列,就填usecols='A:C';只需要第0、1、2列,就填usecols=[0,1,2],能节省内存,提高效率。
2. 读取CSV文件
CSV文件比Excel更轻便,读取方法更简单,唯一需要注意的是编码问题(避免中文乱码):
python import pandas as pd # 读取CSV文件,指定编码(utf-8或gbk最常用) df_csv = pd.read_csv('文件路径.csv', encoding='utf-8') # 如果中文乱码,就换成gbk编码 # df_csv = pd.read_csv('文件路径.csv', encoding='gbk') |
三、重点:批量读取几十个报表(3种常用方法)
运营给的几十个报表,通常都是放在同一个文件夹里,要么命名有规律(比如“销售报表_202501.xlsx”“销售报表_202502.xlsx”),要么就是杂乱的Excel/CSV文件。
下面给大家讲3种最实用的批量读取方法,覆盖大部分场景,你可以根据自己的报表情况选择。
方法一:用glob匹配文件(最常用,推荐)
这种方法适合“所有报表在同一个文件夹,后缀统一”的情况(比如全是.xlsx,或全是.csv),不管文件名有没有规律,都能快速匹配到所有文件。
python import pandas as pd import glob # 1. 获取文件夹下所有Excel文件的路径(替换成你的文件夹路径) # 若为CSV文件,就改成 '文件夹路径/*.csv' file_list = glob.glob('运营报表/*.xlsx') # 2. 定义一个空列表,用来存储每个文件读取后的数据 all_dfs = [] # 3. 循环遍历所有文件,逐个读取并存储 for file in file_list: # 读取当前文件(可根据需要添加usecols、sheet_name等参数) df_temp = pd.read_excel(file) # 可选操作:添加“来源文件”列,方便后续追溯数据来自哪个文件 df_temp['来源文件'] = file.split('/')[-1]# 提取文件名 # 将当前文件的数据添加到列表中 all_dfs.append(df_temp) # 4. 合并所有文件的数据,生成一个总的DataFrame combined_df = pd.concat(all_dfs, ignore_index=True) |
说明:ignore_index=True是为了重置合并后的数据索引,避免出现重复索引,后续分析更方便。
方法二:文件名有固定模式(如按月/按区域命名)
如果运营给的报表命名很规范,比如“报表_1月.xlsx”“报表_2月.xlsx”,或者“北京报表.xlsx”“上海报表.xlsx”,就可以用这种方法,直接按规律生成文件名,批量读取。
python import pandas as pd # 假设报表是按月命名,先定义月份列表(可根据实际情况修改) months = ['1月', '2月', '3月', '4月', '5月', '6月'] # 循环遍历每个月份,生成文件名并读取 for month in months: # 按规律生成文件名 file_name = f'报表_{month}.xlsx' # 读取文件(替换成你的文件夹路径) df = pd.read_excel(f'运营报表/{file_name}', sheet_name='数据') # 可选操作:添加“月份”列,方便后续按月份分析 df['月份'] = month # 后续处理(如添加到列表、合并数据)和方法一一致 |
方法三:递归读取文件夹(含子文件夹)
如果报表不仅在主文件夹里,还分散在多个子文件夹中(比如“运营报表/1季度”“运营报表/2季度”),就需要用这种递归方法,读取所有子文件夹里的指定后缀文件。
python import pandas as pd import os # 定义要遍历的主文件夹 folder = '运营报表' # 定义空列表,存储所有文件路径 all_files = [] # 递归遍历文件夹(包括子文件夹) for root, dirs, files in os.walk(folder): # 遍历当前文件夹下的所有文件 for file in files: # 只读取Excel和CSV文件(可根据需要修改后缀) if file.endswith('.xlsx') or file.endswith('.csv'): # 拼接完整的文件路径(root是当前文件夹路径,file是文件名) file_path = os.path.join(root, file) all_files.append(file_path) # 后续读取、合并数据,和方法一一致 all_dfs = [] for file in all_files: if file.endswith('.xlsx'): df = pd.read_excel(file) else: df = pd.read_csv(file, encoding='utf-8') all_dfs.append(df) combined_df = pd.concat(all_dfs, ignore_index=True) |
四、特殊情况:处理多工作表的Excel文件
有时候,运营给的单个Excel文件里,有多个工作表(比如“销售数据”“回款数据”“客户数据”),这时候该怎么批量读取所有工作表,或者指定工作表呢?
1. 读取单个文件的所有工作表
只需将read_excel的sheet_name参数设为None,读取后会返回一个字典,键是工作表名称,值是对应的DataFrame:
python import pandas as pd # 读取单个Excel文件的所有sheet,返回字典 all_sheets = pd.read_excel('文件.xlsx', sheet_name=None) # 遍历字典,获取每个工作表的数据 for sheet_name, df in all_sheets.items(): print(f'工作表名称:{sheet_name}') print(df.head()) |
2. 批量处理多个文件的多工作表
如果几十个Excel文件,每个都有多个工作表,需要全部读取并合并,可以结合前面的批量方法,嵌套遍历工作表:
python import pandas as pd import glob file_list = glob.glob('运营报表/*.xlsx') all_dfs = [] for file in file_list: # 读取当前文件的所有工作表 sheets_dict = pd.read_excel(file, sheet_name=None) # 遍历每个工作表 for sheet_name, df in sheets_dict.items(): # 添加来源文件和工作表名称,方便追溯 df['文件来源'] = file df['工作表名称'] = sheet_name all_dfs.append(df) # 合并所有数据 combined_df = pd.concat(all_dfs, ignore_index=True) |
五、避坑指南:常见问题与优化技巧
批量处理报表时,很容易遇到编码错误、列名不一致、空文件等问题,这里给大家整理了最常见的4个问题,以及对应的解决方法,帮你少踩坑。
1. CSV文件中文乱码(最常见)
读取CSV文件时,若出现中文乱码,大概率是编码不匹配,尝试以下3种编码即可,基本能解决所有问题:
python # 方法1:使用utf-8编码(最常用) df = pd.read_csv(file, encoding='utf-8') # 方法2:使用gbk编码(适合Windows系统生成的CSV文件) df = pd.read_csv(file, encoding='gbk') # 方法3:使用gb2312编码(兼容部分老文件) df = pd.read_csv(file, encoding='gb2312') |
如果还是乱码,可以先用以下代码检测文件编码,再对应设置:
python import chardet with open(file, 'rb') as f: result = chardet.detect(f.read()) print(f'文件编码:{result["encoding"]}') |
2. 不同报表列名不一致
几十个报表,可能有的列名是“客户名”,有的是“客户名称”,有的是“客户”,合并后会出现多列重复的情况,需要统一列名:
python # 统一列名:将“客户名称”“客户”都改为“客户名” df.rename(columns={'客户名称': '客户名', '客户': '客户名'}, inplace=True) # 补充:如果需要批量统一所有文件的列名,可以在循环读取时添加此代码 |
3. 忽略空文件或格式错误的文件
有的报表可能是空的,或者格式错误(比如后缀是.xlsx,但实际是CSV文件),读取时会报错,导致整个程序中断,用try-except语句可以跳过这些异常文件:
python for file in file_list: try: # 尝试读取文件 df = pd.read_excel(file) # 只保留非空数据 if not df.empty: all_dfs.append(df) except Exception as e: # 读取失败时,打印错误信息,跳过该文件 print(f'读取 {file} 失败:{e}') |
4. 只读取部分列,节省内存
如果报表列很多,但你只需要其中几列(比如只需要“日期”“销售额”“地区”),可以用usecols参数指定,减少内存占用,提高读取速度:
python # 只读取指定的3列 df = pd.read_excel(file, usecols=['日期', '销售额', '地区']) |
六、完整示例:批量处理+汇总分析(直接套用)
下面给大家一个完整的实战示例,假设运营给了几十个按月命名的Excel报表,我们需要批量读取、合并,然后按产品汇总销售额,直接复制代码,修改文件路径和参数就能用!
python import pandas as pd import glob # 1. 获取所有Excel文件路径(替换成你的文件夹路径) files = glob.glob('运营报表/*.xlsx') # 2. 定义要读取的列(根据你的报表列名修改) usecols = ['日期', '产品', '销量', '销售额'] # 3. 批量读取并处理 records = [] for f in files: try: # 读取指定列,避免读取无用数据 df = pd.read_excel(f, usecols=usecols) # 从文件名提取月份(假设文件名为“销售报表_202501.xlsx”) df['月份'] = f.split('_')[1].replace('.xlsx', '') # 添加到列表 records.append(df) except Exception as e: # 跳过异常文件 print(f'跳过 {f}:{e}') # 4. 合并所有数据 final_df = pd.concat(records, ignore_index=True) # 5. 汇总分析(按产品汇总销售额) product_summary = final_df.groupby('产品')['销售额'].sum().sort_values(ascending=False) print("各产品销售额汇总:") print(product_summary) |
七、提高效率的小技巧(进阶)
如果你的报表数量极大(几百上千个),或者文件很大,可以试试这3个小技巧,提高处理效率:
1并行读取:使用multiprocessing库,多线程并行读取文件,减少等待时间。
1统一文件格式:先将所有Excel文件转换为CSV格式,CSV文件读取速度比Excel快很多。
1处理超大数据集:如果数据量极大,用dask.dataframe替代pandas,可分块处理数据,避免内存不足。
最后总结
其实用Python批量处理运营报表,核心思路就3步:
批量获取文件路径 → 循环读取每个文件 → 合并数据并分析
不管是几十个还是几百个报表,只要掌握了上面的方法,都能自动化搞定,再也不用手动复制粘贴到深夜。
如果你的报表有特殊情况(比如列名混乱、文件格式复杂、需要做数据清洗),可以在评论区留言,说说你的具体场景,我会给出更针对性的代码讲解~
觉得有用的话,记得点赞、在看、转发,分享给身边需要的同事朋友,一起摆脱重复劳动!