"帮我拉一下技术部工资超过1万的员工名单,按入职时间排个序。" "把今年下单超过3次的VIP客户筛出来。" 这种需求几乎是数据分析的日常。如果用Excel一点点手动筛选,鼠标点到手抽筋。掌握Pandas的布尔索引、.query()和排序方法,一句话搞定。
文中涉及到的数据文件可以联系我发给你,因为我还不知道怎么在公众号插入文件
Pandas筛选的核心原理很简单:对每一行判断条件是否成立,结果是 True 的行保留,False 的行丢弃。
import pandas as pd
import numpy as np
df = pd.read_csv('data_python/employee_data.csv')
# 先做个类型清理
df['age'] = pd.to_numeric(df['age'], errors='coerce')
df['salary'] = pd.to_numeric(df['salary'], errors='coerce')
df['hire_date'] = pd.to_datetime(df['hire_date'], errors='coerce')
# 条件本身就是一个布尔Series
condition = df['salary'] > 10000
print(condition.head())
# 0 True
# 1 False
# 2 False
# ...
# dtype: bool
# 用这个布尔Series筛选
high_salary = df[df['salary'] > 10000]
print(f"工资超10000的员工:{len(high_salary)} 人")理解这段话就理解了Pandas筛选的一切:df[条件] 返回条件为True的那些行。
实际工作中几乎没有单一条件的筛选。多个条件组合时,有两条铁律:
铁律1:每个条件必须用括号包起来
铁律2:用 &(与)、|(或)、~(非)连接,不能用 and/or/not
# ❌ 错误写法
df[df['salary'] > 10000 and df['department'] == '技术部']
# ✅ 正确写法
df[(df['salary'] > 10000) & (df['department'] == '技术部')]
# 技术部或市场部且工资>1万
df[((df['department'] == '技术部') | (df['department'] == '市场部')) &
(df['salary'] > 10000)]
# 不是技术部的员工
df[~(df['department'] == '技术部'])]
# 多个取反:不是技术部也不是财务部
df[~(df['department'].isin(['技术部', '财务部']))]
# 筛选有缺失值的行
df[df['salary'].isna() | df['age'].isna()]为什么不能用 and/or? Python中 and/or 作用于单个布尔值,而 &/| 作用于元素级的布尔数组。对Series而言,你需要的是逐元素运算。
初学者最容易犯的错:忘记加括号。
df['salary'] > 10000 & df['department'] == '技术部'会报错,因为&优先级高于>。每个条件都加括号,永远不亏。
如果觉得满屏括号太累眼睛,.query() 让你用字符串写筛选条件,干净清爽。
# 布尔索引写法
df[(df['salary'] > 10000) & (df['department'] == '技术部')]
# .query()写法——是不是清爽多了?
df.query('salary > 10000 and department == "技术部"')
# 多条件
df.query('salary > 10000 and department in ["技术部", "市场部"]')
# 引用外部变量用 @
min_salary = 10000
target_dept = '技术部'
df.query('salary > @min_salary and department == @target_dept')
# 字符串部分匹配
df.query('name.str.contains("张")', engine='python')
# 日期筛选
df.query('hire_date >= "2020-01-01"')
# 筛选非空
df.query('salary == salary') # NaN != NaN,所以 salary == salary 排除NaN
# 排除某个部门
df.query('department != "技术部"')布尔索引 vs .query() 怎么选?
.query() | |
.query()@变量 | |
筛选不止能选行,还能同时选列。.loc[] 按标签(名字)选,.iloc[] 按位置(整数)选。
# --- loc:按标签(列名+索引名)选 ---
# 基本格式:df.loc[行的条件, 列的列表]
df.loc[df['salary'] > 10000, ['name', 'department', 'salary']]
# 只选列(所有行)
df.loc[:, ['name', 'salary']]
# 只选行
df.loc[df['department'] == '技术部']
# 按索引名切片(包含两端)
df.loc['EMP0050':'EMP0100', ['name', 'salary']]
# --- iloc:按位置(整数索引)选 ---
# 前10行的name和salary列
df.iloc[:10, [1, 7]]
# 第5到第15行,第2到第5列
df.iloc[5:15, 2:5]
# 最后5行
df.iloc[-5:]
# 选特定行和列
df.iloc[[0, 10, 50], [1, 6, 7]]
# 混合使用:先用布尔条件取行号,再用iloc
target_rows = df[df['salary'] > 10000].index
df.loc[target_rows, ['name', 'department', 'salary']].head()loc 与 iloc 的核心区别:
.loc[] | .iloc[] | |
|---|---|---|
df.loc[df['x']>5, ['a','b']] | df.iloc[:100, :5] |
记忆口诀:
loc= label(标签),iloc= integer location(整数位置)。
当你想筛选某个列的取值属于一个列表或落在某个区间时,这两个方法比布尔索引更简洁。
# --- isin:值在列表中 ---
# 筛选特定部门
target_depts = ['技术部', '市场部']
df[df['department'].isin(target_depts)]
# 筛选特定学历
edu_levels = ['本科', '硕士']
high_edu = df[df['education'].isin(edu_levels)]
# 排除某几个值(加 ~ 取反)
df[~df['department'].isin(['技术部', '财务部'])]
# --- between:值在区间内 ---
# 年龄在30到45之间
df[df['age'].between(30, 45)]
# between默认包含两端(左闭右闭),可改为左开右闭
df[df['age'].between(30, 45, inclusive='left')]
# 工资在1万到2万之间
mid_salary = df[df['salary'].between(10000, 20000)]
# 入职日期在2020年到2023年之间
df[df['hire_date'].between('2020-01-01', '2023-12-31')]where() 不会删除行,而是把不满足条件的变成 NaN。适合保持数据结构完整的场景。
# where:条件为False的位置变成NaN
df['high_salary_only'] = df['salary'].where(df['salary'] > 10000)
# mask:where的反义词(条件为True的位置变NaN)
df['non_tech_salary'] = df['salary'].mask(df['department'] == '技术部')
# 多列同时where
tech_employees = df[['name', 'salary']].where(df['department'] == '技术部')
# 给NaN设置默认值
df['salary'].where(df['salary'] > 10000, other=0)where vs 布尔索引的选择逻辑:
where# 按工资升序(默认ascending=True)
df_sorted = df.sort_values('salary')
# 按工资降序
df_sorted = df.sort_values('salary', ascending=False)
# 按多列排序:先部门,再工资(同部门内按工资排序)
df_sorted = df.sort_values(['department', 'salary'],
ascending=[True, False])
# 按日期排序
df_sorted = df.sort_values('hire_date', na_position='first')
# 排完序重置索引
df_sorted = df.sort_values('salary', ascending=False).reset_index(drop=True)
# 查看工资最高的10个人
top10 = df.sort_values('salary', ascending=False).head(10)
print(top10[['name', 'department', 'salary']])# 工资最高的5人(比排序后.head()更高效)
df.nlargest(5, 'salary')[['name', 'department', 'salary']]
# 工资最低的5人
df.nsmallest(5, 'salary')[['name', 'department', 'salary']]
# 按多列:年龄最大,如果年龄相同再比工资
df.nlargest(10, ['age', 'salary'])
# 按部门分别取工资前3名
df.groupby('department').apply(
lambda x: x.nlargest(3, 'salary')
).reset_index(drop=True)性能提示:
nlargest()和nsmallest()比全量排序再取头尾更快,尤其在大数据上。但它们只能取最大/最小的N个,不能做任意排序。
import pandas as pd
import numpy as np
df = pd.read_csv('data_python/employee_data.csv')
# 数据预处理
df['age'] = pd.to_numeric(df['age'], errors='coerce', downcast='integer')
df['salary'] = pd.to_numeric(df['salary'], errors='coerce', downcast='float')
df['hire_date'] = pd.to_datetime(df['hire_date'], errors='coerce')
df['department'] = df['department'].replace('nan', np.nan)
# ========== 任务1:技术部工资>1万,按工资降序 ==========
tech_high = (
df.query('department == "技术部" and salary > 10000')
.sort_values('salary', ascending=False)
[['name', 'salary', 'hire_date', 'education']]
)
print("技术部高薪员工(前5):")
print(tech_high.head())
# ========== 任务2:2020年后入职的硕士员工 ==========
recent_masters = df[
(df['hire_date'] >= '2020-01-01') &
(df['education'] == '硕士')
].sort_values('hire_date')
print(f"\n2020年后入职的硕士:{len(recent_masters)} 人")
# ========== 任务3:各部门工资前三名 ==========
top3_by_dept = (
df.groupby('department')
.apply(lambda x: x.nlargest(3, 'salary'))
.reset_index(drop=True)
[['department', 'name', 'salary']]
)
print("\n各部门工资前三名:")
print(top3_by_dept)
# ========== 任务4:异常值排查 ==========
# 年龄异常(<18 或 >80)
age_outliers = df[~df['age'].between(18, 80) | df['age'].isna()]
print(f"\n年龄异常:{len(age_outliers)} 人")
# 工资异常(<1000 或 >500000)
salary_outliers = df[~df['salary'].between(1000, 500000) | df['salary'].isna()]
print(f"工资异常:{len(salary_outliers)} 人")
# ========== 任务5:计算各维度统计 ==========
print(f"\n--- 数据概览 ---")
print(f"技术部人数:{(df['department'] == '技术部').sum()}")
print(f"硕士及以上学历:{(df['education'].isin(['硕士', '博士'])).sum()}")
print(f"平均工资(排除异常):{df['salary'].between(1000, 500000).mean()}")
print(f"2024年入职:{df[df['hire_date'].dt.year == 2024].shape[0]} 人")df[df['col'] > value] | ||
df[(A) & (B) | (C)] | 必须加括号 | |
df.query('...') | ||
df.loc[rows, cols] | ||
df.iloc[row_idx, col_idx] | ||
df['col'].isin([...]) | ||
df['col'].between(a, b) | ||
df['col'].where(cond) | ||
df.sort_values('col') | ||
df.nlargest(N, 'col') |
下一篇预告:数据合并与连接——用 merge() 把多张表关联起来,用 concat() 上下拼接,用 join() 按索引合并。彻底告别"开五个Excel窗口来回复制粘贴"的噩梦。
#数据筛选 #loc #iloc #query #Pandas #sort_values #排序
如果这篇文章帮你省了半小时的鼠标时间,请点赞、在看、转发支持一下!