5个可以直接复制的Python数据处理技巧
如果你经常用Excel,这5个技巧可以帮你解决80%的重复工作。
👉 每一个都可以直接用👉 每一个都有真实场景
① 一行代码:批量读取所有Excel
场景:👉 一个文件夹里有几十个Excel,要合并
import pandas as pdimport osfiles = os.listdir("data")df = pd.concat([pd.read_excel(f"data/{f}") for f in files])
👉 结果:🔥 所有Excel → 一个表
关键点:
② 自动清洗空数据(不用手删)
场景:👉 Excel里有大量空行 / 空值
👉 结果:🔥 自动删除所有空行
进阶:只删除关键列为空的数据
df = df.dropna(subset=["金额"])
③ 批量分类(替代手动筛选)
场景:👉 按金额 / 分数 / 权重分级
def classify(x): if x > 1000: return "高" elif x > 500: return "中" else: return "低"df["等级"] = df["金额"].apply(classify)
👉 结果:🔥 自动生成分类列
更快写法(推荐)👇
df["等级"] = pd.cut( df["金额"], bins=[0, 500, 1000, float("inf")], labels=["低", "中", "高"])
④ 一步统计(替代透视表)
场景:👉 统计每个分类有多少条
👉 结果:🔥 自动统计数量
进阶:分组统计
df.groupby("等级")["金额"].sum()
👉 每个等级的总金额
⑤ 一键导出结果(自动生成报告)
场景:👉 处理完数据,需要输出结果
df.to_excel("结果.xlsx", index=False)
👉 结果:🔥 自动生成新Excel
进阶:多表输出
with pd.ExcelWriter("报告.xlsx") as writer: df.to_excel(writer, sheet_name="明细", index=False) df["等级"].value_counts().to_excel(writer, sheet_name="统计")
👉 一个文件,多个sheet
一套完整流程(可以直接套)
把上面组合起来,其实就是一条完整流程👇
import pandas as pdimport os# 1. 合并数据files = os.listdir("data")df = pd.concat([pd.read_excel(f"data/{f}") for f in files])# 2. 清洗df = df.dropna(subset=["金额"])# 3. 分类df["等级"] = pd.cut( df["金额"], bins=[0, 500, 1000, float("inf")], labels=["低", "中", "高"])# 4. 统计summary = df["等级"].value_counts()# 5. 输出with pd.ExcelWriter("结果.xlsx") as writer: df.to_excel(writer, sheet_name="明细", index=False) summary.to_excel(writer, sheet_name="统计")
👉 这段代码可以解决:
核心理解(重点)
你不需要记住所有代码。
你只需要记住一件事:
👉 数据处理 = 4步
读(read)
清(clean)
算(analyze)
出(output)
👉 所有Excel操作,本质都在这4步里
为什么这5个技巧重要?
因为它们覆盖了:
👉 80%真实工作场景
而且:
常见误区(帮你省时间)
❌ 一上来学复杂库👉 实际用不到
❌ 沉迷写复杂逻辑👉 维护成本高
❌ 用Excel硬做👉 时间浪费严重
👉 正确方式:
🔥 用最简单的代码,解决最重复的问题
🎯 最后一句
如果你有这样的数据:
👉 多文件 / 很乱 / 要分类 / 要统计
可以留言你的数据结构(列名+用途)