当前位置：首页>python>从零开始学Python数据清洗(十一)

从零开始学Python数据清洗(十一)

2026-07-03 02:16:32

分组聚合与数据透视

一张几百行的原始数据表，老板要看的是"每个产品的月均销量"、"各部门薪资对比"、"各年龄段客户满意度"——你需要把数据折叠、汇总、重组成决策者能直接看懂的报表。今天的主角就是 pandas 中专门干这件事的工具：groupby、pivot_table 和 melt。

文中涉及到的数据文件可以联系我发给你，因为我还不知道怎么在公众号插入文件

一、groupby：分裂-应用-合并

groupby() 的核心思想叫做 split-apply-combine（分裂-应用-合并）：

1. Split：把数据按某个维度切开（比如按产品、按部门）
2. Apply：对每一组分别执行计算（求和、平均、计数……）
3. Combine：把每一组的结果合并成一张汇总表

单列分组

import pandas as pdorders = pd.read_csv('sales_orders.csv')emp = pd.read_csv('employee_data.csv')# 按产品分组，汇总销量print(orders.groupby('product')['quantity'].sum())

输出结果类似：

产品手机    850电脑    620平板    780耳机    940键盘    710Name: quantity, dtype: int64

多列分组

按多个维度同时切分——比如"每个产品在每个月的销量"：

# 先把日期转为月份orders['order_date'] = pd.to_datetime(orders['order_date'])orders['month'] = orders['order_date'].dt.to_period('M')# 按产品和月份分组result = orders.groupby(['product', 'month'])['quantity'].sum()print(result.head(10))

GroupBy 对象的本质

groupby() 返回的不是一个 DataFrame，而是一个分组对象——它"知道"怎么分，但在你调用聚合函数之前，它不会真正计算。

grouped = orders.groupby('product')  # 这只是一个分组器，不占内存print(type(grouped))  # <class 'pandas.core.groupby.generic.DataFrameGroupBy'># 只有调用聚合函数时，才真正计算result = grouped['quantity'].sum()  # 现在才开始算

groupby() 是惰性计算的。分组对象只是描述了"该怎么分"，真正的计算发生在聚合那一刻。这个设计和 Python 的生成器（generator）一脉相承。

常用聚合函数一览

函数	含义	适用列类型
`.sum()`	求和	数值
`.mean()`	均值	数值
`.median()`	中位数	数值
`.std()`	标准差	数值
`.min()` / `.max()`	最小/最大值	数值、日期
`.count()`	非空计数	所有类型
`.size()`	组内行数（含空值）	所有类型
`.first()` / `.last()`	第一个/最后一个值	所有类型
`.nunique()`	去重后计数	所有类型

# 一次看多种统计量print(orders.groupby('product')['unit_price'].describe())

二、agg：一次运行多种聚合

当你想对一个列同时计算和、均值、标准差时，.agg() 是最优雅的方式。

同列多函数

# 对quantity列应用多个聚合函数stats = orders.groupby('product')['quantity'].agg(['sum', 'mean', 'std', 'count'])stats.columns = ['总销量', '均值', '标准差', '订单数']print(stats.round(2))

不同列不同函数：传入字典

# 对quantity求总和，对unit_price求均值summary = orders.groupby('product').agg({    'quantity': 'sum',    'unit_price': ['mean', 'std'],    'order_id': 'count'})print(summary.round(2))

Named Aggregation：给结果起好名字

从 pandas 0.25 开始，推荐使用命名聚合——结果列名一目了然：

summary = orders.groupby('product').agg(    总销量=('quantity', 'sum'),    均价=('unit_price', 'mean'),    价格波动=('unit_price', 'std'),    订单数=('order_id', 'count'))print(summary.round(2))

这是我最推荐的写法。每一行清晰地表达了：新列名 = (原列, 聚合函数)。

用命名聚合而不是字典传参，不仅可读性强，而且避免了 MultiIndex 列名带来的后续操作麻烦。

三、transform：保持原始形状的分组计算

.agg() 会把多行折叠成一行摘要。但有时候你需要把组的统计值广播回每一行——比如计算每个人相对于部门均值的偏差。

# 给每一行加上"所在部门的平均工资"emp['dept_avg_salary'] = emp.groupby('department')['salary'].transform('mean')print(emp[['name', 'department', 'salary', 'dept_avg_salary']].head(8))

输出示例：

     name department   salary  dept_avg_salary0  员工_36       市场部  22968.99     13240.501  员工_62       技术部   6314.78     15890.302  员工_39       财务部   3222.29     12500.75...

经典用例：组内标准化（z-score）

# 计算每人在自己部门内的工资z-scoreemp['salary_zscore'] = emp.groupby('department')['salary'].transform(    lambda x: (x - x.mean()) / x.std())# 找出各部的异常工资（z-score > 2 或 < -2）outliers = emp[emp['salary_zscore'].abs() > 2]print(f"异常工资人数: {len(outliers)}")

填充组内缺失值

# 用各部门的年龄中位数填充该部门的年龄缺失值emp['age'] = emp.groupby('department')['age'].transform(    lambda x: x.fillna(x.median()))

核心区别：agg 返回 N 行（每组一行）；transform 返回原行数（每行都有结果）。需要广播结果时用 transform，需要汇总时用 agg。

四、filter：筛掉不符合条件的组

有时候你想整个组一起保留或丢弃——比如只看订单总数超过 100 单的产品：

# 筛出总销量大于 200 的产品active_products = orders.groupby('product').filter(lambda g: g['quantity'].sum() > 200)print(f"原数据: {len(orders)}行")print(f"筛后: {len(active_products)}行")print(f"保留的产品: {active_products['product'].unique()}")

再来一个例子——保留至少有 3 名员工的部门：

# 只看人数较多的部门big_dept = emp.groupby('department').filter(lambda g: len(g) >= 3)print(f"部门数: {emp['department'].nunique()} → {big_dept['department'].nunique()}")

五、pivot_table：制作交叉报表

pivot_table() 是 Excel 透视表的 pandas 实现——把"行维度 x 列维度"交叉，中间填聚合值。

基本语法

pivot = pd.pivot_table(    orders,    index='product',       # 行维度    columns='month',       # 列维度    values='quantity',     # 要聚合的值    aggfunc='sum',         # 聚合函数    fill_value=0           # 空值填充为0)print(pivot)

这样你得到一张矩阵：行是产品，列是月份，每个格子里是该产品该月的总销量。

完整示范：月度产品销售矩阵

orders = pd.read_csv('sales_orders.csv')orders['order_date'] = pd.to_datetime(orders['order_date'])orders['month'] = orders['order_date'].dt.to_period('M')# 制作透视表sales_matrix = pd.pivot_table(    orders,    index='product',    columns='month',    values='quantity',    aggfunc='sum',    fill_value=0,    margins=True,         # 加上"合计"行和列    margins_name='合计')print(sales_matrix.round(0))

一个 pivot_table，多种聚合

multi_pivot = pd.pivot_table(    orders,    index='product',    columns='month',    values='unit_price',    aggfunc=['mean', 'count'],  # 同时看均价和订单量    fill_value=0)

pivot_table 和 groupby 在底层是一样的。区别在于：groupby 输出"窄长表"，pivot_table 输出"宽矩阵"。选哪个取决于使用者想看到什么。

六、melt：把宽表"融化"成长表

melt() 是 pivot_table() 的逆向操作——把多列折叠成两列（变量名 + 值）。

# 假设你收到一张宽表格式的销售数据wide_df = pd.DataFrame({    'product': ['手机', '电脑', '平板'],    'Q1_sales': [1200, 800, 600],    'Q2_sales': [1500, 900, 700],    'Q3_sales': [1800, 1000, 850]})# 融化成长表long_df = pd.melt(    wide_df,    id_vars=['product'],              # 保持不变的列    value_vars=['Q1_sales', 'Q2_sales', 'Q3_sales'],  # 要折叠的列    var_name='quarter',               # 折叠后的"变量名"列    value_name='sales'                # 折叠后的"值"列)print(long_df)

输出：

  product   quarter  sales0     手机  Q1_sales   12001     电脑  Q1_sales    8002     平板  Q1_sales    6003     手机  Q2_sales   15004     电脑  Q2_sales    9005     平板  Q2_sales    7006     手机  Q3_sales   18007     电脑  Q3_sales   10008     平板  Q3_sales    850

melt 的常见使用场景：

• 把"人眼友好"的宽表转成 ggplot/seaborn 偏好的长表格式
• 清洗格式混乱的 Excel 报表
• 为时间序列分析准备数据

七、实战：从销售订单到管理层报表

把今天学的连起来，做一次完整的汇总分析：

import pandas as pd# 1. 加载数据orders = pd.read_csv('sales_orders.csv')orders['order_date'] = pd.to_datetime(orders['order_date'])orders['month'] = orders['order_date'].dt.to_period('M')# 2. 按产品做汇总product_summary = orders.groupby('product').agg(    总销量=('quantity', 'sum'),    均价=('unit_price', 'mean'),    销售额=('quantity', lambda x: (x * orders.loc[x.index, 'unit_price']).sum()),    订单数=('order_id', 'nunique')).round(2)print("=== 产品汇总 ===")print(product_summary)# 3. 按月做趋势monthly_summary = orders.groupby('month').agg(    月销量=('quantity', 'sum'),    月销售额=('quantity', lambda x: (x * orders.loc[x.index, 'unit_price']).sum()),    订单数=('order_id', 'count')).round(2)print("\n=== 月度趋势 ===")print(monthly_summary)# 4. 制作产品×月份销量透视表pivot = pd.pivot_table(    orders, index='product', columns='month',    values='quantity', aggfunc='sum', fill_value=0, margins=True)print("\n=== 月度产品销量矩阵 ===")print(pivot)# 5. 给每月销量打个标签（高/低）monthly_summary['销量水平'] = monthly_summary['月销量'].transform(    lambda x: x.apply(lambda v: '高' if v > x.median() else '低'))print("\n=== 月度销量分级 ===")print(monthly_summary[['月销量', '销量水平']])

小结

工具	用途	输出形状
`groupby().agg()`	分组后折叠为汇总行	每组一行
`groupby().transform()`	分组后广播回原行	与原表相同
`groupby().filter()`	整体保留/丢弃某些组	过滤后的原行
`pivot_table()`	行×列交叉聚合	矩阵形式
`melt()`	宽表→长表	变长、变瘦

选工具口诀：

• 要出汇总表 → groupby().agg()
• 要给每行贴标签 → groupby().transform()
• 要筛掉整组 → groupby().filter()
• 要交叉报表 → pivot_table()
• 要拉直宽表 → melt()

下一篇预告

学完了数据合并和分组聚合，我们掌握了 pandas 数据清洗的几乎所有核心工具。下一篇——本系列的最终章——我们将把这些技能串成一条完整的清洗流水线，带着真实数据从头到尾走一遍，并附上系列总结和后续学习建议。压轴篇，敬请期待。

#groupby #pivot_table #数据透视 #melt #Pandas #数据分析

如果这篇文章对你有帮助，记得点赞、在看、转发。错过前几篇？翻到合辑里找"从零开始学Python数据清洗"。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

从零开始学Python数据清洗(十一)

分组聚合与数据透视

一、groupby：分裂-应用-合并

单列分组

多列分组

GroupBy 对象的本质

常用聚合函数一览

二、agg：一次运行多种聚合

同列多函数

不同列不同函数：传入字典

Named Aggregation：给结果起好名字

三、transform：保持原始形状的分组计算

经典用例：组内标准化（z-score）

填充组内缺失值

四、filter：筛掉不符合条件的组

五、pivot_table：制作交叉报表

基本语法

完整示范：月度产品销售矩阵

一个 pivot_table，多种聚合

六、melt：把宽表"融化"成长表

七、实战：从销售订单到管理层报表

小结

下一篇预告

最新文章

热门文章

随机文章

从零开始学Python数据清洗(十一)

分组聚合与数据透视

一、groupby：分裂-应用-合并

单列分组

多列分组

GroupBy 对象的本质

常用聚合函数一览

二、agg：一次运行多种聚合

同列多函数

不同列不同函数：传入字典

Named Aggregation：给结果起好名字

三、transform：保持原始形状的分组计算

经典用例：组内标准化（z-score）

填充组内缺失值

四、filter：筛掉不符合条件的组

五、pivot_table：制作交叉报表

基本语法

完整示范：月度产品销售矩阵

一个 pivot_table，多种聚合

六、melt：把宽表"融化"成长表

七、实战：从销售订单到管理层报表

小结

下一篇预告

Python在智能风控中的应用:从数据到决策的智能跃迁

tqdm:Python 生态中最流行的进度条库,从入门到精通

最新文章

热门文章

随机文章