当前位置：首页>python>python从基础到AI-科学计算三件套-pandas进阶

python从基础到AI-科学计算三件套-pandas进阶

2026-02-07 18:38:52

点击蓝字，立即关注

如果您对人工智能方面的分享感兴趣，欢迎您关注，我们的公众号：

已经完成的读书笔记，如您感兴趣，请移步，往期文章精选：

python机器学习读书笔记导航

《LangChain实战派》读书笔记-目录

《基于大模型的RAG应用开发与优化》读书笔记-导航

如果您对在家做菜也有兴趣，欢迎您关注我们的联合公众号：

写在前面

这是一个新系列的文章，从python基础到AI应用，从基础变成语言到算法使用。不讲原理，只讲用法。

每次留下一个小问题，并在下一次文章开头进行解答。

本系列文章内容，全部由AI来写。

left = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
'A': ['A0', 'A1', 'A2']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K3'],
'B': ['B0', 'B1', 'B3']})
# 内连接：只保留两个表都有的键
result_inner = pd.merge(left, right, on='key')
# 左连接：保留左表所有记录，右表匹配不上则为NaN
result_left = pd.merge(left, right, on='key', how='left')
# 外连接：保留所有记录，缺失部分用NaN填充
result_outer = pd.merge(left, right, on='key', how='outer')

数据分组与聚合分析

groupby() 是洞察数据规律的显微镜，配合聚合函数，能快速生成统计摘要。

# 示例：不同部门的销售业绩
sales_data = pd.DataFrame({
'部门': ['销售部', '技术部', '销售部', '技术部', '销售部'],
'员工': ['张三', '李四', '王五', '赵六', '钱七'],
'销售额': [200, 150, 300, 180, 250]
})
# 按‘部门’分组，计算平均销售额和销售总额
grouped = sales_data.groupby('部门')['销售额'].agg(['mean', 'sum'])
print(grouped)

# 更灵活的分组聚合：对不同列应用不同函数
grouped_complex = sales_data.groupby('部门').agg({'销售额': 'sum', '员工': 'count'})
grouped_complex = grouped_complex.rename(columns={'员工': '人数'}) # 重命名结果列
print(grouped_complex)

创建数据透视表

pivot_table() 是进行多维数据汇总和交叉分析的瑞士军刀，一键生成复杂报表。

# 使用上面的销售数据
pivot = sales_data.pivot_table(
    index='部门',          # 行分组依据
    values='销售额',       # 需要汇总的数值列
    aggfunc=['sum', 'mean', 'count'] # 应用的聚合函数
)
print(pivot)

# 进阶示例：假设数据包含‘年份’和‘产品’
# pivot_complex = df.pivot_table(index=['年份', '部门'], columns='产品', values='销售额', aggfunc='sum', fill_value=0)

动手实践：巩固Pandas核心操作

光说不练假把式。现在，请运用本文所学的所有技能，完成下面的实战作业。它将带你体验一个完整的数据处理流程：从脏数据到清晰洞察。

作业数据集（请先运行以下代码创建DataFrame）：

import pandas as pd
import numpy as np

data = {
'学生ID': ['S001', 'S002', 'S003', 'S004', 'S005', 'S002', 'S006'],
'姓名': ['张三', '李四', '王五', '赵六', '钱七', '李四', '孙八'],
'数学': [85, 90, 78, np.nan, 92, 90, 88],
'英语': [88, 92, 85, 70, np.nan, 92, 90],
'班级': ['A班', 'B班', 'A班', 'B班', 'A班', 'B班', 'A班']
}
df_students = pd.DataFrame(data)
print("原始数据：")
print(df_students)

你的任务清单：

数据清洗

去重
清除数据中完全重复的行。
补全
计算数学和英语两列各自的平均分，并用该平均分填充其中的缺失值。

数据查询与计算

筛选
找出并展示所有 ‘A班’ 同学的数据。
衍生
新增一列 ‘总分’，计算每位学生的数学与英语成绩之和。

数据排序

排名
将整个数据表按照 ‘总分’ 从高到低进行排序，看看谁是学霸。

数据分组统计

洞察
分别计算 ‘A班’ 和 ‘B班’ 在数学、英语以及总分上的平均分，进行班级间的对比。

（挑战题）数据合并

扩展
自己创建一个新的 DataFrame df_sports，包含 ‘学生ID’ 和 ‘体育’ 成绩（分数请自由设定）。
整合
使用左连接 (how='left')，将 df_sports 合并到清洗后的 df_students 中。
再计算
在合并后的数据中，计算包含体育成绩在内的新总分（数学 + 英语 + 体育）。

总结

至此，我们已经系统遍历了 Pandas DataFrame 的核心操作版图。这条学习路径从最基础的增删改查出发，途经数据清洗的关卡（去重、处理缺失值），掌握了高效查询与排序的技巧，学会了如何合并多方数据，最终抵达了分组聚合与透视分析的高地。

掌握这些技能，意味着你已拥有独立处理和分析大部分结构化数据的工具箱。真正的掌握源于实践，请务必认真完成上面的作业，将知识转化为解决问题的能力。

附录：核心知识点速查表

类别	方法/函数	核心用途	关键参数速览
基础操作	`df[‘col’]`	选取单列	—
	`df[[‘col1’, ‘col2’]]`	选取多列	—
	`df.loc[row, col]`	按标签查询	`df.loc[0, ‘A’]` , `df.loc[:, ‘A’:‘C’]`
	`df.iloc[row_pos, col_pos]`	按位置查询	`df.iloc[0, 0]` , `df.iloc[0:3, :]`
	`df.drop()`	删除行/列	`columns=[‘col’]` , `index=[0]`, `inplace=True`
	`df.rename()`	重命名	`columns={‘old’: ‘new’}`
数据清洗	`df.drop_duplicates()`	删除重复行	`subset=[‘col1’, ‘col2’]`
	`df.isna()` / `isnull()`	查找缺失值	—
	`df.dropna()`	删除缺失值	`axis=0/1` , `how=‘any’/‘all’`, `subset=[‘col’]`
	`df.fillna()`	填充缺失值	`value=0` , `method=‘ffill’/‘bfill’`
数据变形	`df.sort_values()`	按数值排序	`by=‘col’` , `ascending=False`
	`df.sort_index()`	按索引排序	`ascending=False`
	`pd.concat()`	堆叠数据	`[df1, df2]` , `axis=0/1`, `ignore_index=True`
	`pd.merge()`	键值合并	`left, right` , `on=‘key’`, `how=‘inner’/‘left’/‘outer’`
分组聚合	`df.groupby()`

请在微信客户端打开

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

目录

引言

解答上期作业：掌握Pandas基础

Pandas DataFrame 核心操作详解

DataFrame的增删改查操作

DataFrame的删除列与去重操作

DataFrame的修改列操作

DataFrame的数据查询操作

Pandas的排序功能

处理缺失值：删除与填充

数据合并：concat与merge

数据分组与聚合分析

创建数据透视表

动手实践：巩固Pandas核心操作

总结

附录：核心知识点速查表

python从基础到AI-科学计算三件套-pandas进阶

最新文章

热门文章

随机文章

python从基础到AI-科学计算三件套-pandas进阶

目录

引言

解答上期作业：掌握Pandas基础

Pandas DataFrame 核心操作详解

DataFrame的增删改查操作

DataFrame的删除列与去重操作

DataFrame的修改列操作

DataFrame的数据查询操作

Pandas的排序功能

处理缺失值：删除与填充

数据合并：concat与merge

数据分组与聚合分析

创建数据透视表

动手实践：巩固Pandas核心操作

总结

附录：核心知识点速查表

ArcGIS字段计算器终极指南:Python函数速查表》 收藏必备!GIS数据处理效率翻倍秘籍

Python必备的100个最常用函数

最新文章

热门文章

随机文章

ArcGIS字段计算器终极指南:Python函数速查表》收藏必备!GIS数据处理效率翻倍秘籍