当前位置：首页>python>【一起学Python】第95天:Pandas数据清洗与预处理全攻略,脏数据也能变干净!��

【一起学Python】第95天:Pandas数据清洗与预处理全攻略,脏数据也能变干净!��

2026-07-02 16:33:19

欢迎来到【一起学Python】第95天！👏

昨天我们搞定了 Pandas 的数据 I/O，能轻松读写 CSV、Excel、JSON 和数据库。但现实中的数据从来不是"拿来就能用"的——它们往往又脏又乱：

🕳️ 缺失值到处都是，统计结果全歪了
🔄 重复行悄悄混入，导致计数翻倍
📊 字符串存成了数字，日期格式乱七八糟
💥 异常值混进来，一个 99999 就能让整体均值失真

数据清洗是数据分析最耗时的环节，通常占 60%-80% 的时间。 今天带你建一条"清洗流水线"，让脏数据秒变干净！🚀

🎯 今日学习目标

✅ 掌握缺失值检测、填充和删除的三种策略
✅ 学会识别和删除重复数据
✅ 熟练使用数据类型转换（字符串转数字、日期解析等）
✅ 用 IQR 法和 Z-Score 法检测异常值

一、缺失值处理：给数据"补洞" 🕳️

缺失值是数据清洗中最常见的问题。Pandas 用 NaN（Not a Number）标记缺失值。

1.1 检测缺失值

import pandas as pdimport numpy as np# 模拟一份有缺失值的数据df = pd.DataFrame({    '姓名': ['小明', '小红', '小刚', '小丽', '小强'],    '年龄': [25, np.nan, 30, 28, np.nan],    '薪资': [8000, 9500, np.nan, 7200, 11000],    '部门': ['技术', '运营', '技术', np.nan, '运营']})# 查看每列缺失情况print(df.isnull().sum())# 输出示例:# 姓名    0# 年龄    2# 薪资    1# 部门    1# 查看整体缺失比例total_missing = df.isnull().sum().sum()total_cells = df.sizeprint(f"缺失比例: {total_missing/total_cells:.1%}")# 输出示例: 缺失比例: 20.0%

1.2 策略一：删除缺失值（`dropna`）

# ❌ 直接删除含缺失值的行（可能丢失大量数据）df_dropped = df.dropna()print("删除后行数:", len(df_dropped))  # 只剩 0 行！# ✅ 设置阈值：只删除缺失超过阈值的行df_thresh = df.dropna(thresh=4)  # 至少保留4个非空值print("阈值删除后:\n", df_thresh)# ✅ 按列删除：只删除某一列缺失的行df_age_clean = df.dropna(subset=['年龄'])  # 只看年龄列print("按列删除后:\n", df_age_clean)

💡 什么时候用删除？ 缺失比例低于 5%，且缺失是随机的（不是系统性的）。

1.3 策略二：填充缺失值（`fillna`）

# ❌ 全部填0（会扭曲统计结果）df_zero = df.fillna(0)# ✅ 数值列用均值/中位数填充df['年龄'] = df['年龄'].fillna(df['年龄'].mean())df['薪资'] = df['薪资'].fillna(df['薪资'].median())# ✅ 分类列用众数填充df['部门'] = df['部门'].fillna(df['部门'].mode()[0])print("填充后:\n", df)# 输出示例:#    姓名    年龄      薪资   部门# 0  小明  25.00   8000.0   技术# 1  小红  27.75   9500.0  运营# 2  小刚  30.00   8750.0   技术# 3  小丽  28.00   7200.0   技术# 4  小强  27.75  11000.0  运营

💡 填充策略选择：

数值列 → 均值（正态分布）或中位数（有异常值）
分类列 → 众数（最常见值）
时间序列 → 前向填充 fillna(method='ffill') 或后向填充

1.4 策略三：插值填充（趋势保持）

import pandas as pd# 时间序列数据，缺失值有趋势性ts_df = pd.DataFrame({    '日期': pd.date_range('2024-01-01', periods=7),    '温度': [5.0, np.nan, np.nan, 11.0, np.nan, 17.0, 20.0]})ts_df.set_index('日期', inplace=True)# ❌ 用均值填充会丢失趋势ts_mean = ts_df.fillna(ts_df['温度'].mean())# ✅ 线性插值：根据前后值自动推算ts_interp = ts_df.interpolate(method='linear')print("线性插值结果:\n", ts_interp)# 输出示例:#             温度# 2024-01-01   5.0# 2024-01-02   7.0# 2024-01-03   9.0# 2024-01-04  11.0# 2024-01-05  14.0# 2024-01-06  17.0# 2024-01-07  20.0

💡 插值适用于：时间序列、有序数据，能保持趋势和周期性。

二、重复值去重：揪出"冒名顶替" 🔄

重复数据会导致统计结果严重失真——一个用户被算两次，销售额直接翻倍。

2.1 检测重复值

import pandas as pd# 模拟含重复值的数据df = pd.DataFrame({    '订单号': ['A001', 'A002', 'A001', 'A003', 'A002', 'A004'],    '商品': ['手机', '电脑', '手机', '平板', '电脑', '耳机'],    '金额': [3999, 8999, 3999, 2499, 8999, 599]})# 查看哪些行是重复的print(df.duplicated())# 输出示例:# 0    False# 1    False# 2     True   ← A001 重复# 3    False# 4     True   ← A002 重复# 5    Falseprint(f"重复行数: {df.duplicated().sum()}")  # 输出: 2

2.2 删除重复值

# ❌ 全列去重（可能误删不同商品但金额相同的情况）df_all = df.drop_duplicates()# ✅ 按关键字段去重（推荐！）df_order = df.drop_duplicates(subset=['订单号'])print("按订单号去重:\n", df_order)# ✅ 保留最后一条记录df_last = df.drop_duplicates(subset=['订单号'], keep='last')print("保留最后一条:\n", df_last)# ✅ 直接修改原 DataFrame（省内存）df.drop_duplicates(subset=['订单号'], inplace=True)

💡 keep 参数详解：

'first'
（默认）：保留第一条
'last'
：保留最后一条
False
：全部删除（包括原始行）

2.3 部分重复处理

# 订单号相同但金额不同（数据异常）df_conflict = pd.DataFrame({    '订单号': ['A001', 'A001'],    '金额': [3999, 4299],    '时间': ['2024-01-01', '2024-01-02']})# 按时间保留最新记录df_latest = df_conflict.sort_values('时间').drop_duplicates(    subset=['订单号'], keep='last')print("最新记录:\n", df_latest)

三、数据类型转换：让数据"归位" 📊

Pandas 读取数据时，类型推断经常出错。不正确的类型会导致计算错误、内存浪费。

3.1 数值类型转换

import pandas as pddf = pd.DataFrame({    '价格': ['1,299', '3,499', '899', '2,199'],    '评分': ['4.5', '4.8', '3.9', '4.2'],    '销量': ['100', '250', '50', '180']})# ❌ 直接转 float 会报错（因为有逗号）# df['价格'] = df['价格'].astype(float)  # ValueError!# ✅ 先清洗再转换df['价格'] = df['价格'].str.replace(',', '').astype(float)df['评分'] = pd.to_numeric(df['评分'])df['销量'] = pd.to_numeric(df['销量'])print(df.dtypes)# 输出示例:# 价格    float64# 评分    float64# 销量      int64

💡 pd.to_numeric vs astype：

pd.to_numeric(errors='coerce')
：无法转换的变 NaN（安全）
astype()
：遇到非法值直接报错（严格）

3.2 日期类型转换

df = pd.DataFrame({    '下单时间': ['2024/01/15', '2024-02-20', '20240301', '15/04/2024'],    '事件': ['购买', '退款', '换货', '退货']})# ❌ 格式不统一，直接转换可能出错# df['下单时间'] = pd.to_datetime(df['下单时间'])# ✅ 指定格式 + 容错df['下单时间'] = pd.to_datetime(    df['下单时间'],    format='mixed',   # 允许混合格式    dayfirst=False    # 月/日/年顺序)# 提取日期组件df['年'] = df['下单时间'].dt.yeardf['月'] = df['下单时间'].dt.monthdf['星期'] = df['下单时间'].dt.day_name()print("日期转换后:\n", df)

💡 日期组件提取是时间分析的基础，提取后可以做月度汇总、周趋势等。

3.3 分类类型优化内存

import pandas as pd# 大量重复的字符串列（如城市、部门、等级）df = pd.DataFrame({    '城市': ['北京'] * 2500 + ['上海'] * 2500 + ['广州'] * 2500 + ['深圳'] * 2500,    '收入': range(10000)})# ❌ object 类型（每个字符串都存一份）print(f"object 内存: {df['城市'].memory_usage(deep=True)} 字节")# 输出示例: ~240,000 字节# ✅ 转为 category（只存一次 + 索引映射）df['城市'] = df['城市'].astype('category')print(f"category 内存: {df['城市'].memory_usage(deep=True)} 字节")# 输出示例: ~10,000 字节（节省约 95%！）

💡 什么时候用 category？ 字符串列的唯值数量远小于总行数（基数低），如性别、省份、等级。

四、异常值检测：揪出"害群之马" 💥

一个异常值能让整体均值失真，所有统计结果跟着跑偏。

4.1 IQR 法（四分位距法）

IQR 法不依赖数据分布，是最稳健的异常值检测方法。

import pandas as pdimport numpy as np# 模拟含异常值的薪资数据df = pd.DataFrame({    '姓名': [f'员工{i}' for i in range(1, 11)],    '薪资': [8000, 8500, 9000, 9200, 9500, 9800, 10000, 10500, 11000, 99999]})Q1 = df['薪资'].quantile(0.25)Q3 = df['薪资'].quantile(0.75)IQR = Q3 - Q1lower_bound = Q1 - 1.5 * IQRupper_bound = Q3 + 1.5 * IQRprint(f"IQR范围: [{lower_bound}, {upper_bound}]")# 输出示例: IQR范围: [4250.0, 14750.0]# 标记异常值df['是否异常'] = (df['薪资'] < lower_bound) | (df['薪资'] > upper_bound)outliers = df[df['是否异常']]print("异常值:\n", outliers)# 输出示例:#      姓名     薪资  是否异常# 9  员工10  99999    True# 过滤异常值df_clean = df[~df['是否异常']].copy()print(f"清洗后均值: {df_clean['薪资'].mean():.0f}")# 输出示例: 清洗后均值: 9556（对比原始均值: 18550）

4.2 Z-Score 法（标准分数法）

Z-Score 适用于近似正态分布的数据。

from scipy import statsimport numpy as np# 模拟考试成绩（含异常值）scores = np.array([85, 90, 78, 88, 92, 87, 83, 91, 76, 12])# 计算 Z-Scorez_scores = np.abs(stats.zscore(scores))print("Z-Scores:", np.round(z_scores, 2))# 输出示例: [0.17 0.59 0.65 0.34 0.85 0.42 0.51 0.76 0.82 2.89]# 标记 Z-Score > 3 的异常值threshold = 3outlier_mask = z_scores > thresholdprint(f"异常值索引: {np.where(outlier_mask)[0]}")  # 输出: [9]print(f"异常值: {scores[outlier_mask]}")           # 输出: [12]# 用中位数替换异常值scores_clean = scores.copy()scores_clean[outlier_mask] = np.median(scores)print(f"替换后: {scores_clean}")# 输出示例: [85 90 78 88 92 87 83 91 76 85]

💡 IQR vs Z-Score 选择：

数据分布不明、有偏斜 → IQR 法（更稳健）
数据近似正态分布 → Z-Score 法（更精确）

4.3 综合清洗流水线

import pandas as pdimport numpy as npdef clean_pipeline(df):    """一站式数据清洗流水线"""    print(f"原始数据: {len(df)} 行")    # Step 1: 去重    dup_count = df.duplicated().sum()    df = df.drop_duplicates()    print(f"✅ 删除重复值: {dup_count} 行")    # Step 2: 缺失值处理    missing = df.isnull().sum()    for col in df.select_dtypes(include=[np.number]).columns:        df[col] = df[col].fillna(df[col].median())    for col in df.select_dtypes(include=['object']).columns:        df[col] = df[col].fillna(df[col].mode()[0])    print(f"✅ 填充缺失值完成")    # Step 3: 异常值检测（IQR法）    for col in df.select_dtypes(include=[np.number]).columns:        Q1, Q3 = df[col].quantile(0.25), df[col].quantile(0.75)        IQR = Q3 - Q1        mask = (df[col] >= Q1 - 1.5*IQR) & (df[col] <= Q3 + 1.5*IQR)        outlier_count = (~mask).sum()        if outlier_count > 0:            df = df[mask]            print(f"✅ {col} 删除异常值: {outlier_count} 行")    print(f"清洗后数据: {len(df)} 行")    return df# 使用示例raw_df = pd.DataFrame({    '年龄': [25, 30, np.nan, 28, 150, 30, 25],    '薪资': [8000, 9500, 7000, np.nan, 9200, 99999, 8500],    '部门': ['技术', '运营', '技术', '技术', '运营', '技术', '运营']})clean_df = clean_pipeline(raw_df)

💻 综合实战：一气呵成

import pandas as pdimport numpy as np# 模拟一份"脏"数据raw = pd.DataFrame({    '用户ID': [1, 2, 2, 3, 4, 5, 5, 6],    '年龄': [25, 30, 30, np.nan, 28, 200, 35, 22],  # 200是异常值    '消费': ['1,200', '3,500', '3,500', '800', '2,100', '950', '4,200', '1,800'],    '等级': ['A', 'B', 'B', 'C', 'A', 'B', 'B', np.nan],    '注册日期': ['2024-01-15', '2024-02-20', '2024-02-20',                 '2024/03/01', '2024-04-10', '2024-05-05',                 '2024-05-05', '2024-06-18']})print("=== 原始数据 ===")print(raw.info())# 1. 去重df = raw.drop_duplicates(subset=['用户ID'])# 2. 类型转换df['消费'] = df['消费'].str.replace(',', '').astype(float)df['注册日期'] = pd.to_datetime(df['注册日期'])df['等级'] = df['等级'].astype('category')# 3. 缺失值处理df['年龄'] = df['年龄'].fillna(df['年龄'].median())df['等级'] = df['等级'].fillna(df['等级'].mode()[0])# 4. 异常值处理（IQR法）Q1 = df['年龄'].quantile(0.25)Q3 = df['年龄'].quantile(0.75)IQR = Q3 - Q1df = df[(df['年龄'] >= Q1 - 1.5*IQR) & (df['年龄'] <= Q3 + 1.5*IQR)]# 5. 查看最终结果print("\n=== 清洗后数据 ===")print(df)print("\n数据类型:")print(df.dtypes)print(f"\n数据形状: {df.shape}")print("🎉 数据清洗完成！")

🚀 明日预告

第96天：Pandas 数据合并全攻略（merge/join/concat/append）

你将学到：

🔸 merge 的四种连接方式（inner/outer/left/right）
🔸 concat 纵向拼接 vs 横向合并的区别
🔸 处理"一对多"合并导致的行数膨胀
🔸 实战：把分散在多个表的数据整合成一张宽表

合并操作是数据分析的"最后一公里"，把清洗好的碎片数据拼成完整分析集！

💡 学习小贴士

清洗前先备份

- 开始清洗前 df_original = df.copy()，随时可以回滚

- 每步操作后 print(df.shape) 监控行数变化

链式调用 vs 分步

- 简单清洗可以链式 df.dropna().drop_duplicates()

- 复杂清洗建议分步，每步打印中间结果方便调试

大型数据集优化

- 超过 100 万行时，先用 category 类型压缩内存

- 分批处理：pd.read_csv(chunksize=50000) 分块清洗

调试技巧

- 缺失值填充后检查 isnull().sum() 确认清零

- 异常值处理后重新计算 describe() 对比前后统计量

💬 写在最后

数据清洗枯燥但重要。

垃圾进，垃圾出（Garbage In, Garbage Out）——再高级的模型、再漂亮的图表，如果输入的数据是脏的，结果也是错的。

今天重点掌握

✅ 缺失值三种策略：删除（少量）、填充（中量）、插值（趋势数据）
✅ 去重一定按关键字段 subset，别全列去重
✅ 类型转换用 to_numeric(errors='coerce') 安全转换
✅ 异常值用 IQR 法（通用）或 Z-Score 法（正态分布）

💬 互动话题

你在数据清洗中遇到过最"离谱"的脏数据是什么样的？日期写成"2024年1月"、年龄写成 200、还是金额带逗号？欢迎在评论区分享你的清洗故事～👇

📌 点赞 + 在看 + 星标，明天推送准时送达！我们第96天见！🐾

🎯 今日金句

"好的数据分析不是从建模开始的，而是从清洗数据开始的。清洗做得好，后续分析事半功倍！" 🧹

明天见！

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

【一起学Python】第95天:Pandas数据清洗与预处理全攻略,脏数据也能变干净!��

🎯 今日学习目标

一、缺失值处理：给数据"补洞" 🕳️

1.1 检测缺失值

1.2 策略一：删除缺失值（`dropna`）

1.3 策略二：填充缺失值（`fillna`）

1.4 策略三：插值填充（趋势保持）

二、重复值去重：揪出"冒名顶替" 🔄

2.1 检测重复值

2.2 删除重复值

2.3 部分重复处理

三、数据类型转换：让数据"归位" 📊

3.1 数值类型转换

3.2 日期类型转换

3.3 分类类型优化内存

四、异常值检测：揪出"害群之马" 💥

4.1 IQR 法（四分位距法）

4.2 Z-Score 法（标准分数法）

4.3 综合清洗流水线

💻 综合实战：一气呵成

🚀 明日预告

💡 学习小贴士

💬 写在最后

最新文章

热门文章

随机文章

【一起学Python】第95天:Pandas数据清洗与预处理全攻略,脏数据也能变干净!��

🎯 今日学习目标

一、缺失值处理：给数据"补洞" 🕳️

1.1 检测缺失值

1.2 策略一：删除缺失值（dropna）

1.3 策略二：填充缺失值（fillna）

1.4 策略三：插值填充（趋势保持）

二、重复值去重：揪出"冒名顶替" 🔄

2.1 检测重复值

2.2 删除重复值

2.3 部分重复处理

三、数据类型转换：让数据"归位" 📊

3.1 数值类型转换

3.2 日期类型转换

3.3 分类类型优化内存

四、异常值检测：揪出"害群之马" 💥

4.1 IQR 法（四分位距法）

4.2 Z-Score 法（标准分数法）

4.3 综合清洗流水线

💻 综合实战：一气呵成

🚀 明日预告

💡 学习小贴士

💬 写在最后

HiMCM数模竞赛含金量有多高?Python与LaTeX双工具实战攻略一文讲透

Python用LightGBM XGBoost Stacking集成学习混合线性规划生鲜冷链仓网配送优化|附数据代码

最新文章

热门文章

随机文章

1.2 策略一：删除缺失值（`dropna`）

1.3 策略二：填充缺失值（`fillna`）