欢迎来到【一起学Python】第95天!👏
昨天我们搞定了 Pandas 的数据 I/O,能轻松读写 CSV、Excel、JSON 和数据库。但现实中的数据从来不是"拿来就能用"的——它们往往又脏又乱:
- 💥 异常值混进来,一个 99999 就能让整体均值失真
数据清洗是数据分析最耗时的环节,通常占 60%-80% 的时间。 今天带你建一条"清洗流水线",让脏数据秒变干净!🚀
🎯 今日学习目标
- ✅ 熟练使用数据类型转换(字符串转数字、日期解析等)
- ✅ 用 IQR 法和 Z-Score 法检测异常值
一、缺失值处理:给数据"补洞" 🕳️
缺失值是数据清洗中最常见的问题。Pandas 用 NaN(Not a Number)标记缺失值。
1.1 检测缺失值
import pandas as pdimport numpy as np# 模拟一份有缺失值的数据df = pd.DataFrame({ '姓名': ['小明', '小红', '小刚', '小丽', '小强'], '年龄': [25, np.nan, 30, 28, np.nan], '薪资': [8000, 9500, np.nan, 7200, 11000], '部门': ['技术', '运营', '技术', np.nan, '运营']})# 查看每列缺失情况print(df.isnull().sum())# 输出示例:# 姓名 0# 年龄 2# 薪资 1# 部门 1# 查看整体缺失比例total_missing = df.isnull().sum().sum()total_cells = df.sizeprint(f"缺失比例: {total_missing/total_cells:.1%}")# 输出示例: 缺失比例: 20.0%
1.2 策略一:删除缺失值(dropna)
# ❌ 直接删除含缺失值的行(可能丢失大量数据)df_dropped = df.dropna()print("删除后行数:", len(df_dropped)) # 只剩 0 行!# ✅ 设置阈值:只删除缺失超过阈值的行df_thresh = df.dropna(thresh=4) # 至少保留4个非空值print("阈值删除后:\n", df_thresh)# ✅ 按列删除:只删除某一列缺失的行df_age_clean = df.dropna(subset=['年龄']) # 只看年龄列print("按列删除后:\n", df_age_clean)
💡 什么时候用删除? 缺失比例低于 5%,且缺失是随机的(不是系统性的)。
1.3 策略二:填充缺失值(fillna)
# ❌ 全部填0(会扭曲统计结果)df_zero = df.fillna(0)# ✅ 数值列用均值/中位数填充df['年龄'] = df['年龄'].fillna(df['年龄'].mean())df['薪资'] = df['薪资'].fillna(df['薪资'].median())# ✅ 分类列用众数填充df['部门'] = df['部门'].fillna(df['部门'].mode()[0])print("填充后:\n", df)# 输出示例:# 姓名 年龄 薪资 部门# 0 小明 25.00 8000.0 技术# 1 小红 27.75 9500.0 运营# 2 小刚 30.00 8750.0 技术# 3 小丽 28.00 7200.0 技术# 4 小强 27.75 11000.0 运营
💡 填充策略选择:
- 时间序列 → 前向填充
fillna(method='ffill') 或后向填充
1.4 策略三:插值填充(趋势保持)
import pandas as pd# 时间序列数据,缺失值有趋势性ts_df = pd.DataFrame({ '日期': pd.date_range('2024-01-01', periods=7), '温度': [5.0, np.nan, np.nan, 11.0, np.nan, 17.0, 20.0]})ts_df.set_index('日期', inplace=True)# ❌ 用均值填充会丢失趋势ts_mean = ts_df.fillna(ts_df['温度'].mean())# ✅ 线性插值:根据前后值自动推算ts_interp = ts_df.interpolate(method='linear')print("线性插值结果:\n", ts_interp)# 输出示例:# 温度# 2024-01-01 5.0# 2024-01-02 7.0# 2024-01-03 9.0# 2024-01-04 11.0# 2024-01-05 14.0# 2024-01-06 17.0# 2024-01-07 20.0
💡 插值适用于:时间序列、有序数据,能保持趋势和周期性。
二、重复值去重:揪出"冒名顶替" 🔄
重复数据会导致统计结果严重失真——一个用户被算两次,销售额直接翻倍。
2.1 检测重复值
import pandas as pd# 模拟含重复值的数据df = pd.DataFrame({ '订单号': ['A001', 'A002', 'A001', 'A003', 'A002', 'A004'], '商品': ['手机', '电脑', '手机', '平板', '电脑', '耳机'], '金额': [3999, 8999, 3999, 2499, 8999, 599]})# 查看哪些行是重复的print(df.duplicated())# 输出示例:# 0 False# 1 False# 2 True ← A001 重复# 3 False# 4 True ← A002 重复# 5 Falseprint(f"重复行数: {df.duplicated().sum()}") # 输出: 2
2.2 删除重复值
# ❌ 全列去重(可能误删不同商品但金额相同的情况)df_all = df.drop_duplicates()# ✅ 按关键字段去重(推荐!)df_order = df.drop_duplicates(subset=['订单号'])print("按订单号去重:\n", df_order)# ✅ 保留最后一条记录df_last = df.drop_duplicates(subset=['订单号'], keep='last')print("保留最后一条:\n", df_last)# ✅ 直接修改原 DataFrame(省内存)df.drop_duplicates(subset=['订单号'], inplace=True)
💡 keep 参数详解:
2.3 部分重复处理
# 订单号相同但金额不同(数据异常)df_conflict = pd.DataFrame({ '订单号': ['A001', 'A001'], '金额': [3999, 4299], '时间': ['2024-01-01', '2024-01-02']})# 按时间保留最新记录df_latest = df_conflict.sort_values('时间').drop_duplicates( subset=['订单号'], keep='last')print("最新记录:\n", df_latest)
三、数据类型转换:让数据"归位" 📊
Pandas 读取数据时,类型推断经常出错。不正确的类型会导致计算错误、内存浪费。
3.1 数值类型转换
import pandas as pddf = pd.DataFrame({ '价格': ['1,299', '3,499', '899', '2,199'], '评分': ['4.5', '4.8', '3.9', '4.2'], '销量': ['100', '250', '50', '180']})# ❌ 直接转 float 会报错(因为有逗号)# df['价格'] = df['价格'].astype(float) # ValueError!# ✅ 先清洗再转换df['价格'] = df['价格'].str.replace(',', '').astype(float)df['评分'] = pd.to_numeric(df['评分'])df['销量'] = pd.to_numeric(df['销量'])print(df.dtypes)# 输出示例:# 价格 float64# 评分 float64# 销量 int64
💡 pd.to_numeric vs astype:
pd.to_numeric(errors='coerce')astype()
3.2 日期类型转换
df = pd.DataFrame({ '下单时间': ['2024/01/15', '2024-02-20', '20240301', '15/04/2024'], '事件': ['购买', '退款', '换货', '退货']})# ❌ 格式不统一,直接转换可能出错# df['下单时间'] = pd.to_datetime(df['下单时间'])# ✅ 指定格式 + 容错df['下单时间'] = pd.to_datetime( df['下单时间'], format='mixed', # 允许混合格式 dayfirst=False # 月/日/年顺序)# 提取日期组件df['年'] = df['下单时间'].dt.yeardf['月'] = df['下单时间'].dt.monthdf['星期'] = df['下单时间'].dt.day_name()print("日期转换后:\n", df)
💡 日期组件提取是时间分析的基础,提取后可以做月度汇总、周趋势等。
3.3 分类类型优化内存
import pandas as pd# 大量重复的字符串列(如城市、部门、等级)df = pd.DataFrame({ '城市': ['北京'] * 2500 + ['上海'] * 2500 + ['广州'] * 2500 + ['深圳'] * 2500, '收入': range(10000)})# ❌ object 类型(每个字符串都存一份)print(f"object 内存: {df['城市'].memory_usage(deep=True)} 字节")# 输出示例: ~240,000 字节# ✅ 转为 category(只存一次 + 索引映射)df['城市'] = df['城市'].astype('category')print(f"category 内存: {df['城市'].memory_usage(deep=True)} 字节")# 输出示例: ~10,000 字节(节省约 95%!)
💡 什么时候用 category? 字符串列的唯值数量远小于总行数(基数低),如性别、省份、等级。
四、异常值检测:揪出"害群之马" 💥
一个异常值能让整体均值失真,所有统计结果跟着跑偏。
4.1 IQR 法(四分位距法)
IQR 法不依赖数据分布,是最稳健的异常值检测方法。
import pandas as pdimport numpy as np# 模拟含异常值的薪资数据df = pd.DataFrame({ '姓名': [f'员工{i}' for i in range(1, 11)], '薪资': [8000, 8500, 9000, 9200, 9500, 9800, 10000, 10500, 11000, 99999]})Q1 = df['薪资'].quantile(0.25)Q3 = df['薪资'].quantile(0.75)IQR = Q3 - Q1lower_bound = Q1 - 1.5 * IQRupper_bound = Q3 + 1.5 * IQRprint(f"IQR范围: [{lower_bound}, {upper_bound}]")# 输出示例: IQR范围: [4250.0, 14750.0]# 标记异常值df['是否异常'] = (df['薪资'] < lower_bound) | (df['薪资'] > upper_bound)outliers = df[df['是否异常']]print("异常值:\n", outliers)# 输出示例:# 姓名 薪资 是否异常# 9 员工10 99999 True# 过滤异常值df_clean = df[~df['是否异常']].copy()print(f"清洗后均值: {df_clean['薪资'].mean():.0f}")# 输出示例: 清洗后均值: 9556(对比原始均值: 18550)
4.2 Z-Score 法(标准分数法)
Z-Score 适用于近似正态分布的数据。
from scipy import statsimport numpy as np# 模拟考试成绩(含异常值)scores = np.array([85, 90, 78, 88, 92, 87, 83, 91, 76, 12])# 计算 Z-Scorez_scores = np.abs(stats.zscore(scores))print("Z-Scores:", np.round(z_scores, 2))# 输出示例: [0.17 0.59 0.65 0.34 0.85 0.42 0.51 0.76 0.82 2.89]# 标记 Z-Score > 3 的异常值threshold = 3outlier_mask = z_scores > thresholdprint(f"异常值索引: {np.where(outlier_mask)[0]}") # 输出: [9]print(f"异常值: {scores[outlier_mask]}") # 输出: [12]# 用中位数替换异常值scores_clean = scores.copy()scores_clean[outlier_mask] = np.median(scores)print(f"替换后: {scores_clean}")# 输出示例: [85 90 78 88 92 87 83 91 76 85]
💡 IQR vs Z-Score 选择:
- 数据近似正态分布 → Z-Score 法(更精确)
4.3 综合清洗流水线
import pandas as pdimport numpy as npdef clean_pipeline(df): """一站式数据清洗流水线""" print(f"原始数据: {len(df)} 行") # Step 1: 去重 dup_count = df.duplicated().sum() df = df.drop_duplicates() print(f"✅ 删除重复值: {dup_count} 行") # Step 2: 缺失值处理 missing = df.isnull().sum() for col in df.select_dtypes(include=[np.number]).columns: df[col] = df[col].fillna(df[col].median()) for col in df.select_dtypes(include=['object']).columns: df[col] = df[col].fillna(df[col].mode()[0]) print(f"✅ 填充缺失值完成") # Step 3: 异常值检测(IQR法) for col in df.select_dtypes(include=[np.number]).columns: Q1, Q3 = df[col].quantile(0.25), df[col].quantile(0.75) IQR = Q3 - Q1 mask = (df[col] >= Q1 - 1.5*IQR) & (df[col] <= Q3 + 1.5*IQR) outlier_count = (~mask).sum() if outlier_count > 0: df = df[mask] print(f"✅ {col} 删除异常值: {outlier_count} 行") print(f"清洗后数据: {len(df)} 行") return df# 使用示例raw_df = pd.DataFrame({ '年龄': [25, 30, np.nan, 28, 150, 30, 25], '薪资': [8000, 9500, 7000, np.nan, 9200, 99999, 8500], '部门': ['技术', '运营', '技术', '技术', '运营', '技术', '运营']})clean_df = clean_pipeline(raw_df)
💻 综合实战:一气呵成
import pandas as pdimport numpy as np# 模拟一份"脏"数据raw = pd.DataFrame({ '用户ID': [1, 2, 2, 3, 4, 5, 5, 6], '年龄': [25, 30, 30, np.nan, 28, 200, 35, 22], # 200是异常值 '消费': ['1,200', '3,500', '3,500', '800', '2,100', '950', '4,200', '1,800'], '等级': ['A', 'B', 'B', 'C', 'A', 'B', 'B', np.nan], '注册日期': ['2024-01-15', '2024-02-20', '2024-02-20', '2024/03/01', '2024-04-10', '2024-05-05', '2024-05-05', '2024-06-18']})print("=== 原始数据 ===")print(raw.info())# 1. 去重df = raw.drop_duplicates(subset=['用户ID'])# 2. 类型转换df['消费'] = df['消费'].str.replace(',', '').astype(float)df['注册日期'] = pd.to_datetime(df['注册日期'])df['等级'] = df['等级'].astype('category')# 3. 缺失值处理df['年龄'] = df['年龄'].fillna(df['年龄'].median())df['等级'] = df['等级'].fillna(df['等级'].mode()[0])# 4. 异常值处理(IQR法)Q1 = df['年龄'].quantile(0.25)Q3 = df['年龄'].quantile(0.75)IQR = Q3 - Q1df = df[(df['年龄'] >= Q1 - 1.5*IQR) & (df['年龄'] <= Q3 + 1.5*IQR)]# 5. 查看最终结果print("\n=== 清洗后数据 ===")print(df)print("\n数据类型:")print(df.dtypes)print(f"\n数据形状: {df.shape}")print("🎉 数据清洗完成!")
🚀 明日预告
第96天:Pandas 数据合并全攻略(merge/join/concat/append)
你将学到:
- 🔸
merge 的四种连接方式(inner/outer/left/right)
合并操作是数据分析的"最后一公里",把清洗好的碎片数据拼成完整分析集!
💡 学习小贴士
- 清洗前先备份
- 开始清洗前 df_original = df.copy(),随时可以回滚
- 每步操作后 print(df.shape) 监控行数变化
- 链式调用 vs 分步
- 简单清洗可以链式 df.dropna().drop_duplicates()
- 复杂清洗建议分步,每步打印中间结果方便调试
- 大型数据集优化
- 超过 100 万行时,先用 category 类型压缩内存
- 分批处理:pd.read_csv(chunksize=50000) 分块清洗
- 调试技巧
- 缺失值填充后检查 isnull().sum() 确认清零
- 异常值处理后重新计算 describe() 对比前后统计量
💬 写在最后
数据清洗枯燥但重要。
垃圾进,垃圾出(Garbage In, Garbage Out)——再高级的模型、再漂亮的图表,如果输入的数据是脏的,结果也是错的。
今天重点掌握
- ✅ 缺失值三种策略:删除(少量)、填充(中量)、插值(趋势数据)
- ✅ 类型转换用
to_numeric(errors='coerce') 安全转换 - ✅ 异常值用 IQR 法(通用)或 Z-Score 法(正态分布)
💬 互动话题
你在数据清洗中遇到过最"离谱"的脏数据是什么样的?日期写成"2024年1月"、年龄写成 200、还是金额带逗号?欢迎在评论区分享你的清洗故事~👇
📌 点赞 + 在看 + 星标,明天推送准时送达!我们第96天见!🐾
🎯 今日金句
"好的数据分析不是从建模开始的,而是从清洗数据开始的。清洗做得好,后续分析事半功倍!" 🧹
明天见!