一张几百行的原始数据表,老板要看的是"每个产品的月均销量"、"各部门薪资对比"、"各年龄段客户满意度"——你需要把数据折叠、汇总、重组成决策者能直接看懂的报表。今天的主角就是 pandas 中专门干这件事的工具:groupby、pivot_table 和 melt。
文中涉及到的数据文件可以联系我发给你,因为我还不知道怎么在公众号插入文件
groupby() 的核心思想叫做 split-apply-combine(分裂-应用-合并):
import pandas as pdorders = pd.read_csv('sales_orders.csv')emp = pd.read_csv('employee_data.csv')# 按产品分组,汇总销量print(orders.groupby('product')['quantity'].sum())输出结果类似:
产品手机 850电脑 620平板 780耳机 940键盘 710Name: quantity, dtype: int64按多个维度同时切分——比如"每个产品在每个月的销量":
# 先把日期转为月份orders['order_date'] = pd.to_datetime(orders['order_date'])orders['month'] = orders['order_date'].dt.to_period('M')# 按产品和月份分组result = orders.groupby(['product', 'month'])['quantity'].sum()print(result.head(10))groupby() 返回的不是一个 DataFrame,而是一个分组对象——它"知道"怎么分,但在你调用聚合函数之前,它不会真正计算。
grouped = orders.groupby('product') # 这只是一个分组器,不占内存print(type(grouped)) # <class 'pandas.core.groupby.generic.DataFrameGroupBy'># 只有调用聚合函数时,才真正计算result = grouped['quantity'].sum() # 现在才开始算
groupby()是惰性计算的。分组对象只是描述了"该怎么分",真正的计算发生在聚合那一刻。这个设计和 Python 的生成器(generator)一脉相承。
.sum() | ||
.mean() | ||
.median() | ||
.std() | ||
.min().max() | ||
.count() | ||
.size() | ||
.first().last() | ||
.nunique() |
# 一次看多种统计量print(orders.groupby('product')['unit_price'].describe())当你想对一个列同时计算和、均值、标准差时,.agg() 是最优雅的方式。
# 对quantity列应用多个聚合函数stats = orders.groupby('product')['quantity'].agg(['sum', 'mean', 'std', 'count'])stats.columns = ['总销量', '均值', '标准差', '订单数']print(stats.round(2))# 对quantity求总和,对unit_price求均值summary = orders.groupby('product').agg({ 'quantity': 'sum', 'unit_price': ['mean', 'std'], 'order_id': 'count'})print(summary.round(2))从 pandas 0.25 开始,推荐使用命名聚合——结果列名一目了然:
summary = orders.groupby('product').agg( 总销量=('quantity', 'sum'), 均价=('unit_price', 'mean'), 价格波动=('unit_price', 'std'), 订单数=('order_id', 'count'))print(summary.round(2))这是我最推荐的写法。每一行清晰地表达了:新列名 = (原列, 聚合函数)。
用命名聚合而不是字典传参,不仅可读性强,而且避免了 MultiIndex 列名带来的后续操作麻烦。
.agg() 会把多行折叠成一行摘要。但有时候你需要把组的统计值广播回每一行——比如计算每个人相对于部门均值的偏差。
# 给每一行加上"所在部门的平均工资"emp['dept_avg_salary'] = emp.groupby('department')['salary'].transform('mean')print(emp[['name', 'department', 'salary', 'dept_avg_salary']].head(8))输出示例:
name department salary dept_avg_salary0 员工_36 市场部 22968.99 13240.501 员工_62 技术部 6314.78 15890.302 员工_39 财务部 3222.29 12500.75...# 计算每人在自己部门内的工资z-scoreemp['salary_zscore'] = emp.groupby('department')['salary'].transform( lambda x: (x - x.mean()) / x.std())# 找出各部的异常工资(z-score > 2 或 < -2)outliers = emp[emp['salary_zscore'].abs() > 2]print(f"异常工资人数: {len(outliers)}")# 用各部门的年龄中位数填充该部门的年龄缺失值emp['age'] = emp.groupby('department')['age'].transform( lambda x: x.fillna(x.median()))核心区别:
agg返回 N 行(每组一行);transform返回原行数(每行都有结果)。需要广播结果时用 transform,需要汇总时用 agg。
有时候你想整个组一起保留或丢弃——比如只看订单总数超过 100 单的产品:
# 筛出总销量大于 200 的产品active_products = orders.groupby('product').filter(lambda g: g['quantity'].sum() > 200)print(f"原数据: {len(orders)}行")print(f"筛后: {len(active_products)}行")print(f"保留的产品: {active_products['product'].unique()}")再来一个例子——保留至少有 3 名员工的部门:
# 只看人数较多的部门big_dept = emp.groupby('department').filter(lambda g: len(g) >= 3)print(f"部门数: {emp['department'].nunique()} → {big_dept['department'].nunique()}")pivot_table() 是 Excel 透视表的 pandas 实现——把"行维度 x 列维度"交叉,中间填聚合值。
pivot = pd.pivot_table( orders, index='product', # 行维度 columns='month', # 列维度 values='quantity', # 要聚合的值 aggfunc='sum', # 聚合函数 fill_value=0 # 空值填充为0)print(pivot)这样你得到一张矩阵:行是产品,列是月份,每个格子里是该产品该月的总销量。
orders = pd.read_csv('sales_orders.csv')orders['order_date'] = pd.to_datetime(orders['order_date'])orders['month'] = orders['order_date'].dt.to_period('M')# 制作透视表sales_matrix = pd.pivot_table( orders, index='product', columns='month', values='quantity', aggfunc='sum', fill_value=0, margins=True, # 加上"合计"行和列 margins_name='合计')print(sales_matrix.round(0))multi_pivot = pd.pivot_table( orders, index='product', columns='month', values='unit_price', aggfunc=['mean', 'count'], # 同时看均价和订单量 fill_value=0)pivot_table 和 groupby 在底层是一样的。区别在于:groupby 输出"窄长表",pivot_table 输出"宽矩阵"。选哪个取决于使用者想看到什么。
melt() 是 pivot_table() 的逆向操作——把多列折叠成两列(变量名 + 值)。
# 假设你收到一张宽表格式的销售数据wide_df = pd.DataFrame({ 'product': ['手机', '电脑', '平板'], 'Q1_sales': [1200, 800, 600], 'Q2_sales': [1500, 900, 700], 'Q3_sales': [1800, 1000, 850]})# 融化成长表long_df = pd.melt( wide_df, id_vars=['product'], # 保持不变的列 value_vars=['Q1_sales', 'Q2_sales', 'Q3_sales'], # 要折叠的列 var_name='quarter', # 折叠后的"变量名"列 value_name='sales' # 折叠后的"值"列)print(long_df)输出:
product quarter sales0 手机 Q1_sales 12001 电脑 Q1_sales 8002 平板 Q1_sales 6003 手机 Q2_sales 15004 电脑 Q2_sales 9005 平板 Q2_sales 7006 手机 Q3_sales 18007 电脑 Q3_sales 10008 平板 Q3_sales 850melt 的常见使用场景:
把今天学的连起来,做一次完整的汇总分析:
import pandas as pd# 1. 加载数据orders = pd.read_csv('sales_orders.csv')orders['order_date'] = pd.to_datetime(orders['order_date'])orders['month'] = orders['order_date'].dt.to_period('M')# 2. 按产品做汇总product_summary = orders.groupby('product').agg( 总销量=('quantity', 'sum'), 均价=('unit_price', 'mean'), 销售额=('quantity', lambda x: (x * orders.loc[x.index, 'unit_price']).sum()), 订单数=('order_id', 'nunique')).round(2)print("=== 产品汇总 ===")print(product_summary)# 3. 按月做趋势monthly_summary = orders.groupby('month').agg( 月销量=('quantity', 'sum'), 月销售额=('quantity', lambda x: (x * orders.loc[x.index, 'unit_price']).sum()), 订单数=('order_id', 'count')).round(2)print("\n=== 月度趋势 ===")print(monthly_summary)# 4. 制作产品×月份销量透视表pivot = pd.pivot_table( orders, index='product', columns='month', values='quantity', aggfunc='sum', fill_value=0, margins=True)print("\n=== 月度产品销量矩阵 ===")print(pivot)# 5. 给每月销量打个标签(高/低)monthly_summary['销量水平'] = monthly_summary['月销量'].transform( lambda x: x.apply(lambda v: '高' if v > x.median() else '低'))print("\n=== 月度销量分级 ===")print(monthly_summary[['月销量', '销量水平']])groupby().agg() | ||
groupby().transform() | ||
groupby().filter() | ||
pivot_table() | ||
melt() |
选工具口诀:
groupby().agg()groupby().transform()groupby().filter()pivot_table()melt()学完了数据合并和分组聚合,我们掌握了 pandas 数据清洗的几乎所有核心工具。下一篇——本系列的最终章——我们将把这些技能串成一条完整的清洗流水线,带着真实数据从头到尾走一遍,并附上系列总结和后续学习建议。压轴篇,敬请期待。
#groupby #pivot_table #数据透视 #melt #Pandas #数据分析
如果这篇文章对你有帮助,记得点赞、在看、转发。错过前几篇?翻到合辑里找"从零开始学Python数据清洗"。