当前位置：首页>python>Python几种不同场景下的筛选函数

Python几种不同场景下的筛选函数

2026-07-02 16:40:17

VibeCodingAI围壁扣顶，学习Python从实践到慢慢入门，筑起你的Python知识大厦！知识就是力量，知识改变命运；科技就是生产力，AI就是即战力!

知道程序员为什么叫作码农吗?因为学习代码都好像种田一样,都是从实践到慢慢入门的一个过程,来吧,跟我一起学习Python从实践到慢慢入门吧!

单一集合的计数筛选函数：

比如:从[2, 4, 8, 10, 12, 16, 18, 20, 22]中选5个数的筛选范围是0-2,我们可以用手动循环实现:

# 手动循环filtered = []for combo in input_data:    common = len(set(combo) & draw_diffs)    if min_cnt <= common <= max_cnt:        filtered.append(combo)

如果有多组这种单一集合的计数筛选,我们还可以设计一个通用函数(filter_by_count_in_set),如下:

# 统计组合中落在某集合内的号码个数def filter_by_count_in_set(data, target_set, min_c, max_c):    ts = set(target_set)    return [combo for combo in data if min_c <= sum(1 for num in combo if num in ts) <= max_c]

两者都是 O(N * 5)，但原手动循环中 set(combo) 会创建临时集合，而 filter_by_count_in_set 使用 sum 生成器直接计算，没有创建临时集合，内存分配更少。另外，集合交集 & 操作也有额外开销。因此 filter_by_count_in_set 效率略高，且代码更简洁。所以原来的手动循环效率会比 filter_by_count_in_set 低一些（因为创建临时集合和交集操作）。

主要差异在于临时集合的创建和交集运算的开销。

性能对比分析

方法	核心操作	内存分配	额外开销
手动循环	set(combo) & draw_diffs	每个组合创建一个临时集合 set(combo)	集合构造 + 交集运算
filter_by_count_in_set	sum(1 for n in combo if n in ts)	无临时集合，仅遍历5个号码	每个号码一次集合成员测试 in ts

详细说明

手动循环：set(combo) 每次会为5个号码分配一个新的哈希表（集合），然后计算与 draw_diffs 的交集，生成新的临时集合，最后取长度。即使号码很少，集合构造的开销（哈希计算、内存分配）也不容忽视。
filter_by_count_in_set：直接遍历组合的5个号码，对每个号码判断是否在目标集合 ts 中（in 操作 O(1)），计数满足条件的个数。无额外内存分配，只有简单的整数累加。

实测估算

假设数据源有 324,632 个组合（C(35,5)），手动循环会创建 32 万多个临时集合，每个集合至少几十字节的内存。而 filter_by_count_in_set 则完全没有这些分配，GC 压力更小。在 CPython 中，这种差异在大量数据下是肉眼可见的（可能快 10%~30%）。

多分类计数筛选函数:

遍历组合内的所有号码，对每个号码判断它属于哪个分类（通过遍历分类判断函数列表，命中后 break），累加对应分类计数。最后检查所有分类计数是否在范围内。它避免了多次遍历组合.

filter_multi_category 设计用于处理多个互斥分类（如重/邻/孤、012路、五行），它会为每个号码遍历所有分类的判断函数，直到找到匹配的分类。filter_multi_category的核心思想是一次遍历完成所有分类统计，避免重复扫描.

# ==================== 通用筛选核心函数 ====================def filter_multi_category(data, categories, limits):    """    通用多分类筛选函数：统一处理所有多分类计数类筛选，消除重复代码    对每个号码组合，统计每个分类下的号码数量，筛选出所有分类数量都符合范围的组合    适用于：各种分类的所有同类筛选逻辑    :param data: 原始的号码组合数据    :param categories: 分类定义列表，每个元素是判断号码是否属于该分类的函数                       入参为单个号码n，返回bool，分类需互斥（一个号码仅属于一个分类）    :param limits: 每个分类对应的数量限制列表，每个元素是(min_count, max_count)                   表示该分类下的号码数量需要满足的范围    :return: 筛选后的号码组合数据    """    # 校验分类与限制的数量一致    if len(categories) != len(limits):        raise ValueError("分类数量与限制数量必须保持一致")    filtered = []    for combo in data:        # 初始化每个分类的计数        counts = [0] * len(categories)        # 单次遍历组合内所有号码，完成所有分类的计数        for n in combo:            # 遍历分类，找到当前号码所属的分类            for idx, check_func in enumerate(categories):                if check_func(n):                    counts[idx] += 1                    break  # 分类互斥，找到后直接跳出，无需判断后续分类        # 校验所有分类的计数是否都符合限制        is_valid = True        for cnt, (min_c, max_c) in zip(counts, limits):            if not (min_c <= cnt <= max_c):                is_valid = False                break        if is_valid:            filtered.append(combo)    return filtered

filter_multi_category 适用于需要同时满足多个分类数量范围的场景，它是通过并行统计而非串行筛选实现的。
filter_multi_category一次遍历一个组合，对每个号码检查它属于哪个分类（通过遍历categories函数列表），累加计数。复杂度O(n * m * k)，但实际k通常很小，且由于分类互斥，命中后break，平均只检查少量分类。最终一次遍历完成所有分类的计数。
filter_by_count_in_set适用于只有一个分类（或只需统计一个集合）的场景，它是 filter_multi_category 的一个特例（分类数为 1 时的更简洁实现）。
两者不是“拆分与组合”的关系，而是不同复杂度的工具：单分类用 filter_by_count_in_set，多分类用 filter_multi_category，后者是前者的泛化版本，但实现上并非调用前者。

另外一个场景是多行数据（每行是一个列表/元组），每行有自己的独立过滤条件,这种情况下，不能用单一的 filter_multi_category 因为它的限制是全局的。那么效率最高的方法是什么？

“多行数据过滤，每行有不同的过滤范围”的场景，最高效的方法依然是逐行遍历并独立判断。因为每一行的范围条件不同，无法通过单一的全局筛选一次性处理，也没有捷径可以避免检查每一行的每个元素。

逐行遍历，对每行用自定义逻辑判断。这是最直接的方法，也是基准。每行内遍历元素，统计所需分类的个数，然后比较范围。复杂度 O(行数 * 每行长度)。由于每行长度是常数（比如5或7），这已经是理论最优（因为必须检查每个元素才能知道分类计数）。

对于这种“每行独立范围”的过滤，无法比逐行遍历更优，因为每一行的范围信息只能单独作用于该行，无法提前剪枝或批量处理。所以效率最高的方法就是：

用一个循环遍历所有行。
对每一行，统计所需分类的数量（通过预计算的bool数组查表）。
根据该行对应的范围判断是否保留。

多行(几十万行级别)并且每行筛选范围独立的过滤最优实现方式

预计算分类标志：例如，提前生成一个长度为36的布尔数组 is_prime，使得判断 is_prime[x] 为 O(1) 且无需重复计算。
单次遍历：对每一行，遍历其元素，利用预计算标志统计计数，然后根据该行对应的范围决定是否保留。
使用Python原生循环：因为每行长度很小（最多7），Python级别的循环开销微不足道，且简单明了。

示例代码：

def filter_rows_individual(data, ranges, category_flags):    """    data: list of list[int]    ranges: list of (min, max) 与 data 一一对应    category_flags: list[bool] 长度为36，索引i表示数字i是否属于目标分类    """    result = []    for row, (mn, mx) in zip(data, ranges):        cnt = 0        for x in row:            if category_flags[x]:                cnt += 1        if mn <= cnt <= mx:            result.append(row)    return result

为什么不选择其他方法？

向量化（numpy）：每行长度不固定，且需要逐元素查表，numpy 的布尔索引也无法直接处理变长列表，反而会增加类型转换开销。
并行处理：数据量大时可用多进程，但每行计算量极小，并行带来的通信和调度开销可能超过收益。
预分组：如果不同范围的行很多，可以按范围分组，然后每组用 filter_by_count_in_set 批量过滤。但这仍然需要遍历所有行一次来完成分组，且分组后的批量过滤仍需检查每个元素，总复杂度相同，却多了一次分组循环。

结论

直接逐行遍历，每行内统计计数并判断范围，就是理论最优（时间复杂度 O(N*L)，L 为每行元素个数，且无法更低）。在实际应用中（数据量几十万行，每行5-7个元素），这种方法的执行时间通常小于0.1秒，完全无需额外优化。

多行(百行左右级别)并且每行筛选范围独立的过滤最优实现方式

而对于几十行、每行最多35个元素的数据规模，总元素数量不过几百到一千多，即使最简单的Python循环也几乎瞬间完成，无需任何性能优化，这种数据量下，任何合理的方法（包括 filter_by_count_in_set、filter_multi_category 或手写循环）效率几乎没有差别，过滤方法效率都极高，差异完全可以忽略不计（可能只有几微秒到几毫秒）。因此不必担心性能问题，代码的可读性和简洁性才是最优先的考虑。如果未来数据量变大（比如几十万行），那么逐行遍历依然是必要的，但可以借助预计算标志加速。

1. 数据量估算

假设 100 行，每行 35 个数 → 3500 次元素检查。
Python 执行 3500 次简单的 in 操作或集合交集，耗时远低于 1 毫秒。即使加上循环开销，也几乎瞬时完成。

2. 各种方法的效率对比（在这种小规模下）

方法	实现	相对性能	推荐度
手写 for 循环 + if x in target_set	直观，无额外分配	最快	可接受，但不如函数封装清晰
filter_by_count_in_set	单一函数调用，内部也是手写循环	同样快推荐，简洁统一	推荐，简洁统一
set(combo) & target_set	每行创建临时集合	稍慢，但实际差别 < 0.1ms	不推荐，代码不必要地复杂
filter_multi_category	为每个元素遍历分类函数列表	略慢（函数调用开销），但依然微秒级	适合多分类场景，单分类大材小用

3. 结论与建议

直接使用 filter_by_count_in_set 最好：它已经封装了高效的遍历和计数逻辑，代码简单、语义清晰，并且与 core.py 中的其他筛选函数风格一致。
无需自己写循环：虽然手写循环也很快，但会增加代码重复，不利于维护。
不要担心性能：几十行数据，任何方法都不会成为瓶颈。优化重点应放在代码可读性和功能正确性上。

示例

# 高效且简洁filtered = filter_by_count_in_set(data, target_set, min_count, max_count)

如果手写循环（例如需要为每行使用不同的范围），也完全可行，同样不会有性能问题。

日无所获，失落一日，日有所悟，欢欣鼓舞！

所谓千里之行始于足下: 不积跬步，无以至千里。不积小流，无以成江海。骐骥一跃，不能十步。驽马十驾，功在不舍。锲而舍之，朽木不折。锲而不舍，金石可镂。每天进步一点点，成功离我更近一点!

若文章对你有所帮助,请点击右上角或分享, 让你朋友因此而受益!真诚感谢你的关注和推荐!

欢迎交流,有任何问题欢迎留言讨论

AI已经让我们可以直通知识海洋的入口了,一起努力学习吧,解锁自己潜藏的能力!

平时灌溉，才有期待，运气一来，花自盛开！

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Python几种不同场景下的筛选函数

性能对比分析

详细说明

实测估算

为什么不选择其他方法？

结论

1. 数据量估算

2. 各种方法的效率对比（在这种小规模下）

示例

最新文章

热门文章

随机文章

Python几种不同场景下的筛选函数

性能对比分析

详细说明

实测估算

为什么不选择其他方法？

结论

1. 数据量估算

2. 各种方法的效率对比（在这种小规模下）

示例

windows系统搭建虚拟环境,安装Linux开发环境.

Python全栈开发路线图,简单明了!

最新文章

热门文章

随机文章