当前位置：首页>python>Pandas,一个数据处理的Python库!

Pandas,一个数据处理的Python库!

2026-07-03 12:03:49

在数据分析、办公自动化、数据可视化、机器学习等场景中，数据处理是核心环节：清洗杂乱数据、筛选有用信息、统计分析数据、合并拆分表格、处理缺失值……手动处理Excel、CSV数据不仅耗时费力，还容易出现计算错误、格式混乱等问题，尤其面对海量数据时，效率极低且无法保证准确性。

**Pandas** 是Python生态中最强大、最流行的数据处理库，专为结构化数据（表格、CSV、Excel等）设计，封装了数据读取、清洗、筛选、统计、分析的全流程功能。无论是程序员处理业务数据、数据分析师做数据预处理、职场人批量处理Excel报表，还是机器学习工程师准备训练数据，Pandas都能以极简代码完成复杂的数据操作，大幅提升数据处理效率，是Python数据领域的必备工具，也是入门数据分析的首选库。

一、库的简介，就是实际生活中的作用

Pandas专注于**结构化数据的高效处理与分析**，支持Excel、CSV、JSON等多种数据格式，核心优势是“高效、简洁、灵活”，完美解决手动数据处理的痛点。在实际生活和工作中，它的应用无处不在：职场人批量处理Excel报表、合并多份表格、统计数据汇总；数据分析师清洗杂乱数据、处理缺失值、生成统计报告；程序员读取接口返回数据、进行数据过滤与转换；学生处理课程实验数据、完成数据分析作业；甚至日常整理个人收支、账单数据，都能通过Pandas快速完成。它能将原本几小时的手动数据处理工作，压缩到几行代码、几分钟完成，是提升数据处理效率的核心利器。

二、安装库

Pandas是第三方库，支持Python3.7及以上版本，通过pip命令一键安装，因依赖numpy库（用于数值计算），安装时会自动安装依赖，打开终端执行以下命令即可：


pip install pandas
安装完成后，直接导入库即可使用，通常搭配numpy一起导入（数据处理更高效）：
import pandas as pdimport numpy as np
三、基本用法，用法需要分1234个小步骤
Pandas的核心数据结构是DataFrame（表格数据）和Series（单列数据），以下4步快速掌握基础数据处理操作，覆盖日常高频需求：
1. 读取数据（核心第一步）
读取本地Excel、CSV文件，生成可操作的DataFrame表格对象，支持多种数据格式：
# 读取CSV文件（最常用）df = pd.read_csv("data.csv")# 读取Excel文件（需提前安装openpyxl依赖：pip install openpyxl）# df = pd.read_excel("data.xlsx", engine="openpyxl")
2. 查看数据基本信息
快速了解数据的结构、维度、缺失值等，为后续处理做准备：
# 查看数据前5行（默认5行，可指定行数，如head(10)）print(df.head())# 查看数据维度（行、列）print(df.shape)# 查看数据基本信息（数据类型、缺失值）print(df.info())
3. 筛选与查询数据
根据需求筛选指定行、列，提取有用信息，替代手动筛选：
# 筛选指定列（如筛选“姓名”“成绩”列）df_selected = df[["姓名", "成绩"]]# 筛选满足条件的数据（如筛选成绩大于80分的行）df_filtered = df[df["成绩"] > 80]# 查看筛选后的数据print(df_filtered.head())
4. 保存处理后的数据
将处理完成的数据保存为Excel、CSV文件，方便后续使用或分享：
# 保存为CSV文件（不保留索引，更简洁）df_filtered.to_csv("筛选后数据.csv", index=False)# 保存为Excel文件# df_filtered.to_excel("筛选后数据.xlsx", index=False, engine="openpyxl")
四、高级用法
掌握高级用法，轻松处理复杂数据场景（如缺失值处理、数据合并、统计分析），满足专业数据处理需求：
1. 缺失值处理（数据清洗核心）
# 查看缺失值数量print(df.isnull().sum())# 填充缺失值（如用均值填充成绩缺失值）df["成绩"] = df["成绩"].fillna(df["成绩"].mean())# 删除包含缺失值的行df = df.dropna()
2. 数据合并与拼接
合并多份表格数据（如合并员工信息表和工资表），替代手动复制粘贴：
# 模拟两份表格df1 = pd.DataFrame({"姓名": ["张三", "李四"], "工号": ["001", "002"]})df2 = pd.DataFrame({"工号": ["001", "002"], "工资": [8000, 9000]})# 按“工号”合并表格df_merge = pd.merge(df1, df2, on="工号")print(df_merge)
3. 数据统计与计算
快速计算数据的均值、中位数、最大值、最小值等统计指标：
# 计算成绩的均值、中位数、最大值print("成绩均值：", df["成绩"].mean())print("成绩中位数：", df["成绩"].median())print("成绩最大值：", df["成绩"].max())# 按类别分组统计（如按班级分组，计算平均成绩）df_group = df.groupby("班级")["成绩"].mean()print(df_group)
4. 数据替换与修改
# 替换指定值（如将“不及格”替换为0）df["成绩"] = df["成绩"].replace("不及格", 0)# 修改列名（如将“姓名”改为“员工姓名”）df = df.rename(columns={"姓名": "员工姓名"})
五、实际应用场景
结合日常高频需求，提供2个有深度的实战案例，代码可直接复制运行，覆盖办公和数据处理场景，贴合日常生活使用：
场景1：办公自动化 - 批量处理月度工资表，统计汇总并生成报表
适用于财务、行政人员，批量读取多份工资表，合并数据、统计部门平均工资，生成汇总报表：
import pandas as pdimport os# 批量读取指定文件夹下所有工资表（Excel格式）file_path = "./工资表"files = [f for f in os.listdir(file_path) if f.endswith(".xlsx")]# 初始化空DataFrame，用于合并所有数据all_salary = pd.DataFrame()for file in files:    # 读取单份工资表    df = pd.read_excel(os.path.join(file_path, file), engine="openpyxl")    # 合并数据    all_salary = pd.concat([all_salary, df], ignore_index=True)# 按部门分组，统计平均工资、最高工资、最低工资dept_salary = all_salary.groupby("部门").agg({    "工资": ["mean", "max", "min"]}).round(2)# 重命名列名，更简洁dept_salary.columns = ["平均工资", "最高工资", "最低工资"]# 保存汇总报表dept_salary.to_excel("部门工资汇总表.xlsx", engine="openpyxl")print("工资表批量处理完成，汇总表已保存！")
场景2：日常实用 - 个人收支账单分析，统计月度支出、分类汇总
适用于个人日常，读取收支账单（CSV/Excel），分析月度支出情况、分类统计花费，清晰掌握收支情况：
import pandas as pd# 读取个人收支账单（CSV格式，包含“日期”“分类”“金额”“备注”列）df = pd.read_csv("个人收支账单.csv")# 数据清洗：转换日期格式、处理缺失值df["日期"] = pd.to_datetime(df["日期"])df["金额"] = df["金额"].fillna(0)# 统计月度总支出、总收入（正数为收入，负数为支出）df["月份"] = df["日期"].dt.monthmonthly_stats = df.groupby("月份")["金额"].agg(["sum", "count"])monthly_stats.columns = ["月度收支总额", "交易次数"]# 按分类统计支出（筛选出支出数据，即金额<0）expense_by_type = df[df["金额"] < 0].groupby("分类")["金额"].sum().abs()# 保存分析结果with pd.ExcelWriter("个人收支分析报告.xlsx", engine="openpyxl") as writer:    monthly_stats.to_excel(writer, sheet_name="月度统计")    expense_by_type.to_excel(writer, sheet_name="支出分类统计")print("收支分析完成，报告已保存！")print("月度统计：")print(monthly_stats)print("支出分类统计：")print(expense_by_type)
Pandas作为Python数据处理的标杆库，以简洁的API、高效的处理能力、强大的兼容性，成为数据领域的核心工具。它无需复杂的代码编写，就能完成从数据读取、清洗、筛选，到统计、合并、保存的全流程操作，完美覆盖日常办公、个人数据管理、专业数据分析等场景。无论是新手入门，还是资深开发者、数据分析师，Pandas都能大幅提升数据处理效率，减少重复劳动，是Python生态中不可或缺的实用库。
Pandas上手门槛适中，四步基础用法就能完成日常数据处理需求，高级用法则能应对复杂的数据清洗、统计、合并场景，在日常生活和工作中应用极广。它不仅是程序员的必备工具，也是职场人、学生提升效率的好帮手。你在日常中最常处理哪种类型的数据？是Excel报表、个人账单，还是业务数据？不妨用文中的案例动手实践，把繁琐的数据处理交给Pandas，也欢迎分享你的数据处理需求，一起交流更多实用技巧！

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Pandas,一个数据处理的Python库!

最新文章

热门文章

随机文章

Pandas,一个数据处理的Python库!

天呐!才发现Python还有这么多的用处

耗时2天 搭建了一个Python学习库~

最新文章

热门文章

随机文章

耗时2天搭建了一个Python学习库~