当前位置：首页>python>从零开始学Python数据清洗(九)

从零开始学Python数据清洗(九)

2026-07-01 17:41:35

数据筛选、过滤与排序

"帮我拉一下技术部工资超过1万的员工名单，按入职时间排个序。" "把今年下单超过3次的VIP客户筛出来。" 这种需求几乎是数据分析的日常。如果用Excel一点点手动筛选，鼠标点到手抽筋。掌握Pandas的布尔索引、.query()和排序方法，一句话搞定。

文中涉及到的数据文件可以联系我发给你，因为我还不知道怎么在公众号插入文件

一、布尔索引：筛选的本质是"判断对错"

Pandas筛选的核心原理很简单：对每一行判断条件是否成立，结果是 True 的行保留，False 的行丢弃。

import pandas as pd
import numpy as np

df = pd.read_csv('data_python/employee_data.csv')

# 先做个类型清理
df['age'] = pd.to_numeric(df['age'], errors='coerce')
df['salary'] = pd.to_numeric(df['salary'], errors='coerce')
df['hire_date'] = pd.to_datetime(df['hire_date'], errors='coerce')

# 条件本身就是一个布尔Series
condition = df['salary'] > 10000
print(condition.head())
# 0     True
# 1    False
# 2    False
# ...
# dtype: bool

# 用这个布尔Series筛选
high_salary = df[df['salary'] > 10000]
print(f"工资超10000的员工：{len(high_salary)} 人")

理解这段话就理解了Pandas筛选的一切：df[条件] 返回条件为True的那些行。

二、多条件组合：& | ~ 三剑客

实际工作中几乎没有单一条件的筛选。多个条件组合时，有两条铁律：

铁律1：每个条件必须用括号包起来
铁律2：用 &（与）、|（或）、~（非）连接，不能用 and/or/not

# ❌ 错误写法
df[df['salary'] > 10000 and df['department'] == '技术部']

# ✅ 正确写法
df[(df['salary'] > 10000) & (df['department'] == '技术部')]

# 技术部或市场部且工资>1万
df[((df['department'] == '技术部') | (df['department'] == '市场部')) & 
   (df['salary'] > 10000)]

# 不是技术部的员工
df[~(df['department'] == '技术部'])]

# 多个取反：不是技术部也不是财务部
df[~(df['department'].isin(['技术部', '财务部']))]

# 筛选有缺失值的行
df[df['salary'].isna() | df['age'].isna()]

为什么不能用 and/or？ Python中 and/or 作用于单个布尔值，而 &/| 作用于元素级的布尔数组。对Series而言，你需要的是逐元素运算。

初学者最容易犯的错：忘记加括号。df['salary'] > 10000 & df['department'] == '技术部' 会报错，因为 & 优先级高于 >。每个条件都加括号，永远不亏。

三、.query()：像写SQL一样筛选

如果觉得满屏括号太累眼睛，.query() 让你用字符串写筛选条件，干净清爽。

# 布尔索引写法
df[(df['salary'] > 10000) & (df['department'] == '技术部')]

# .query()写法——是不是清爽多了？
df.query('salary > 10000 and department == "技术部"')

# 多条件
df.query('salary > 10000 and department in ["技术部", "市场部"]')

# 引用外部变量用 @
min_salary = 10000
target_dept = '技术部'
df.query('salary > @min_salary and department == @target_dept')

# 字符串部分匹配
df.query('name.str.contains("张")', engine='python')

# 日期筛选
df.query('hire_date >= "2020-01-01"')

# 筛选非空
df.query('salary == salary')  # NaN != NaN，所以 salary == salary 排除NaN

# 排除某个部门
df.query('department != "技术部"')

布尔索引 vs .query() 怎么选？

场景	推荐方式
简单条件	`.query()` 更易读
条件用变量动态生成	`.query()` + `@变量`
非常复杂的条件嵌套	布尔索引更灵活
列名含空格或特殊字符	布尔索引（.query()不支持）

四、.loc[] 与 .iloc[]：精准定位

筛选不止能选行，还能同时选列。.loc[] 按标签（名字）选，.iloc[] 按位置（整数）选。

# --- loc：按标签（列名+索引名）选 ---
# 基本格式：df.loc[行的条件, 列的列表]
df.loc[df['salary'] > 10000, ['name', 'department', 'salary']]

# 只选列（所有行）
df.loc[:, ['name', 'salary']]

# 只选行
df.loc[df['department'] == '技术部']

# 按索引名切片（包含两端）
df.loc['EMP0050':'EMP0100', ['name', 'salary']]

# --- iloc：按位置（整数索引）选 ---
# 前10行的name和salary列
df.iloc[:10, [1, 7]]

# 第5到第15行，第2到第5列
df.iloc[5:15, 2:5]

# 最后5行
df.iloc[-5:]

# 选特定行和列
df.iloc[[0, 10, 50], [1, 6, 7]]

# 混合使用：先用布尔条件取行号，再用iloc
target_rows = df[df['salary'] > 10000].index
df.loc[target_rows, ['name', 'department', 'salary']].head()

loc 与 iloc 的核心区别：

	`.loc[]`	`.iloc[]`
选择依据	标签（名字）	位置（整数）
切片包含	包含两端	不包含末端（Python惯例）
典型用途	`df.loc[df['x']>5, ['a','b']]`	`df.iloc[:100, :5]`

记忆口诀：loc = label（标签），iloc = integer location（整数位置）。

五、.isin() 与 .between()：快速范围筛选

当你想筛选某个列的取值属于一个列表或落在某个区间时，这两个方法比布尔索引更简洁。

# --- isin：值在列表中 ---
# 筛选特定部门
target_depts = ['技术部', '市场部']
df[df['department'].isin(target_depts)]

# 筛选特定学历
edu_levels = ['本科', '硕士']
high_edu = df[df['education'].isin(edu_levels)]

# 排除某几个值（加 ~ 取反）
df[~df['department'].isin(['技术部', '财务部'])]

# --- between：值在区间内 ---
# 年龄在30到45之间
df[df['age'].between(30, 45)]

# between默认包含两端（左闭右闭），可改为左开右闭
df[df['age'].between(30, 45, inclusive='left')]

# 工资在1万到2万之间
mid_salary = df[df['salary'].between(10000, 20000)]

# 入职日期在2020年到2023年之间
df[df['hire_date'].between('2020-01-01', '2023-12-31')]

六、.where() 与 .mask()：保留形状的筛选

where() 不会删除行，而是把不满足条件的变成 NaN。适合保持数据结构完整的场景。

# where：条件为False的位置变成NaN
df['high_salary_only'] = df['salary'].where(df['salary'] > 10000)

# mask：where的反义词（条件为True的位置变NaN）
df['non_tech_salary'] = df['salary'].mask(df['department'] == '技术部')

# 多列同时where
tech_employees = df[['name', 'salary']].where(df['department'] == '技术部')

# 给NaN设置默认值
df['salary'].where(df['salary'] > 10000, other=0)

where vs 布尔索引的选择逻辑：

• 需要浓缩数据、减少行数：用布尔索引
• 需要保持原始行列结构、只隐藏部分值：用 where

七、排序：让数据井井有条

sort_values()：按列排序

# 按工资升序（默认ascending=True）
df_sorted = df.sort_values('salary')

# 按工资降序
df_sorted = df.sort_values('salary', ascending=False)

# 按多列排序：先部门，再工资（同部门内按工资排序）
df_sorted = df.sort_values(['department', 'salary'], 
                           ascending=[True, False])

# 按日期排序
df_sorted = df.sort_values('hire_date', na_position='first')

# 排完序重置索引
df_sorted = df.sort_values('salary', ascending=False).reset_index(drop=True)

# 查看工资最高的10个人
top10 = df.sort_values('salary', ascending=False).head(10)
print(top10[['name', 'department', 'salary']])

nlargest() / nsmallest()：直接取前N/后N

# 工资最高的5人（比排序后.head()更高效）
df.nlargest(5, 'salary')[['name', 'department', 'salary']]

# 工资最低的5人
df.nsmallest(5, 'salary')[['name', 'department', 'salary']]

# 按多列：年龄最大，如果年龄相同再比工资
df.nlargest(10, ['age', 'salary'])

# 按部门分别取工资前3名
df.groupby('department').apply(
    lambda x: x.nlargest(3, 'salary')
).reset_index(drop=True)

性能提示：nlargest() 和 nsmallest() 比全量排序再取头尾更快，尤其在大数据上。但它们只能取最大/最小的N个，不能做任意排序。

八、实战：多维度筛选员工数据

import pandas as pd
import numpy as np

df = pd.read_csv('data_python/employee_data.csv')

# 数据预处理
df['age'] = pd.to_numeric(df['age'], errors='coerce', downcast='integer')
df['salary'] = pd.to_numeric(df['salary'], errors='coerce', downcast='float')
df['hire_date'] = pd.to_datetime(df['hire_date'], errors='coerce')
df['department'] = df['department'].replace('nan', np.nan)

# ========== 任务1：技术部工资>1万，按工资降序 ==========
tech_high = (
    df.query('department == "技术部" and salary > 10000')
    .sort_values('salary', ascending=False)
    [['name', 'salary', 'hire_date', 'education']]
)
print("技术部高薪员工（前5）：")
print(tech_high.head())

# ========== 任务2：2020年后入职的硕士员工 ==========
recent_masters = df[
    (df['hire_date'] >= '2020-01-01') &
    (df['education'] == '硕士')
].sort_values('hire_date')

print(f"\n2020年后入职的硕士：{len(recent_masters)} 人")

# ========== 任务3：各部门工资前三名 ==========
top3_by_dept = (
    df.groupby('department')
    .apply(lambda x: x.nlargest(3, 'salary'))
    .reset_index(drop=True)
    [['department', 'name', 'salary']]
)
print("\n各部门工资前三名：")
print(top3_by_dept)

# ========== 任务4：异常值排查 ==========
# 年龄异常（<18 或 >80）
age_outliers = df[~df['age'].between(18, 80) | df['age'].isna()]
print(f"\n年龄异常：{len(age_outliers)} 人")

# 工资异常（<1000 或 >500000）
salary_outliers = df[~df['salary'].between(1000, 500000) | df['salary'].isna()]
print(f"工资异常：{len(salary_outliers)} 人")

# ========== 任务5：计算各维度统计 ==========
print(f"\n--- 数据概览 ---")
print(f"技术部人数：{(df['department'] == '技术部').sum()}")
print(f"硕士及以上学历：{(df['education'].isin(['硕士', '博士'])).sum()}")
print(f"平均工资（排除异常）：{df['salary'].between(1000, 500000).mean()}")
print(f"2024年入职：{df[df['hire_date'].dt.year == 2024].shape[0]} 人")

小结

操作	方法	关键点
单条件筛选	`df[df['col'] > value]`	条件产生布尔Series
多条件组合	`df[(A) & (B) \| (C)]`	必须加括号
SQL风格筛选	`df.query('...')`	字符串写条件
按标签选	`df.loc[rows, cols]`	按列名/行名
按位置选	`df.iloc[row_idx, col_idx]`	按整数索引
值在列表中	`df['col'].isin([...])`	比多条件OR简洁
值在区间内	`df['col'].between(a, b)`	两端默认包含
条件保留/隐藏	`df['col'].where(cond)`	False变NaN，保持结构
排序	`df.sort_values('col')`	ascending控制升降
取前/后N	`df.nlargest(N, 'col')`	比排序后.head()更快

下一篇预告：数据合并与连接——用 merge() 把多张表关联起来，用 concat() 上下拼接，用 join() 按索引合并。彻底告别"开五个Excel窗口来回复制粘贴"的噩梦。

#数据筛选 #loc #iloc #query #Pandas #sort_values #排序

如果这篇文章帮你省了半小时的鼠标时间，请点赞、在看、转发支持一下！

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

从零开始学Python数据清洗(九)

数据筛选、过滤与排序

一、布尔索引：筛选的本质是"判断对错"

二、多条件组合：& | ~ 三剑客

三、.query()：像写SQL一样筛选

四、.loc[] 与 .iloc[]：精准定位

五、.isin() 与 .between()：快速范围筛选

六、.where() 与 .mask()：保留形状的筛选

七、排序：让数据井井有条

sort_values()：按列排序

nlargest() / nsmallest()：直接取前N/后N

八、实战：多维度筛选员工数据

小结

最新文章

热门文章

随机文章

从零开始学Python数据清洗(九)

数据筛选、过滤与排序

一、布尔索引：筛选的本质是"判断对错"

二、多条件组合：& | ~ 三剑客

三、.query()：像写SQL一样筛选

四、.loc[] 与 .iloc[]：精准定位

五、.isin() 与 .between()：快速范围筛选

六、.where() 与 .mask()：保留形状的筛选

七、排序：让数据井井有条

sort_values()：按列排序

nlargest() / nsmallest()：直接取前N/后N

八、实战：多维度筛选员工数据

小结

一文搞懂free -m:判断Linux内存空闲必须以available为准

手把手教你用Python给A股公司做“财报体检”,一眼识别财务地雷!

最新文章

热门文章

随机文章