VibeCodingAI围壁扣顶,学习Python从实践到慢慢入门,筑起你的Python知识大厦!知识就是力量,知识改变命运;科技就是生产力,AI就是即战力!
知道程序员为什么叫作码农吗?因为学习代码都好像种田一样,都是从实践到慢慢入门的一个过程,来吧,跟我一起学习Python从实践到慢慢入门吧!
单一集合的计数筛选函数:
比如:从[2, 4, 8, 10, 12, 16, 18, 20, 22]中选5个数的筛选范围是0-2,我们可以用手动循环实现:
# 手动循环filtered = []for combo in input_data: common = len(set(combo) & draw_diffs) if min_cnt <= common <= max_cnt: filtered.append(combo)
如果有多组这种单一集合的计数筛选,我们还可以设计一个通用函数(filter_by_count_in_set),如下:
# 统计组合中落在某集合内的号码个数def filter_by_count_in_set(data, target_set, min_c, max_c): ts = set(target_set) return [combo for combo in data if min_c <= sum(1 for num in combo if num in ts) <= max_c]
两者都是 O(N * 5),但原手动循环中 set(combo) 会创建临时集合,而 filter_by_count_in_set 使用 sum 生成器直接计算,没有创建临时集合,内存分配更少。另外,集合交集 & 操作也有额外开销。因此 filter_by_count_in_set 效率略高,且代码更简洁。所以原来的手动循环效率会比 filter_by_count_in_set 低一些(因为创建临时集合和交集操作)。
主要差异在于临时集合的创建和交集运算的开销。
性能对比分析
方法 | 核心操作 | 内存分配 | 额外开销 |
手动循环 | set(combo) & draw_diffs | 每个组合创建一个临时集合 set(combo) | 集合构造 + 交集运算 |
filter_by_count_in_set | sum(1 for n in combo if n in ts) | 无临时集合,仅遍历5个号码 | 每个号码一次集合成员测试 in ts |
详细说明
手动循环:set(combo) 每次会为5个号码分配一个新的哈希表(集合),然后计算与 draw_diffs 的交集,生成新的临时集合,最后取长度。即使号码很少,集合构造的开销(哈希计算、内存分配)也不容忽视。
filter_by_count_in_set:直接遍历组合的5个号码,对每个号码判断是否在目标集合 ts 中(in 操作 O(1)),计数满足条件的个数。无额外内存分配,只有简单的整数累加。
实测估算
假设数据源有 324,632 个组合(C(35,5)),手动循环会创建 32 万多个临时集合,每个集合至少几十字节的内存。而 filter_by_count_in_set 则完全没有这些分配,GC 压力更小。在 CPython 中,这种差异在大量数据下是肉眼可见的(可能快 10%~30%)。
多分类计数筛选函数:
遍历组合内的所有号码,对每个号码判断它属于哪个分类(通过遍历分类判断函数列表,命中后 break),累加对应分类计数。最后检查所有分类计数是否在范围内。它避免了多次遍历组合.filter_multi_category 设计用于处理多个互斥分类(如重/邻/孤、012路、五行),它会为每个号码遍历所有分类的判断函数,直到找到匹配的分类。filter_multi_category的核心思想是一次遍历完成所有分类统计,避免重复扫描.
# ==================== 通用筛选核心函数 ====================def filter_multi_category(data, categories, limits): """ 通用多分类筛选函数:统一处理所有多分类计数类筛选,消除重复代码 对每个号码组合,统计每个分类下的号码数量,筛选出所有分类数量都符合范围的组合 适用于:各种分类的所有同类筛选逻辑 :param data: 原始的号码组合数据 :param categories: 分类定义列表,每个元素是判断号码是否属于该分类的函数 入参为单个号码n,返回bool,分类需互斥(一个号码仅属于一个分类) :param limits: 每个分类对应的数量限制列表,每个元素是(min_count, max_count) 表示该分类下的号码数量需要满足的范围 :return: 筛选后的号码组合数据 """ # 校验分类与限制的数量一致 if len(categories) != len(limits): raise ValueError("分类数量与限制数量必须保持一致") filtered = [] for combo in data: # 初始化每个分类的计数 counts = [0] * len(categories) # 单次遍历组合内所有号码,完成所有分类的计数 for n in combo: # 遍历分类,找到当前号码所属的分类 for idx, check_func in enumerate(categories): if check_func(n): counts[idx] += 1 break # 分类互斥,找到后直接跳出,无需判断后续分类 # 校验所有分类的计数是否都符合限制 is_valid = True for cnt, (min_c, max_c) in zip(counts, limits): if not (min_c <= cnt <= max_c): is_valid = False break if is_valid: filtered.append(combo) return filtered
filter_multi_category 适用于需要同时满足多个分类数量范围的场景,它是通过并行统计而非串行筛选实现的。
filter_multi_category一次遍历一个组合,对每个号码检查它属于哪个分类(通过遍历categories函数列表),累加计数。复杂度O(n * m * k),但实际k通常很小,且由于分类互斥,命中后break,平均只检查少量分类。最终一次遍历完成所有分类的计数。
filter_by_count_in_set适用于只有一个分类(或只需统计一个集合)的场景,它是 filter_multi_category 的一个特例(分类数为 1 时的更简洁实现)。
两者不是“拆分与组合”的关系,而是不同复杂度的工具:单分类用 filter_by_count_in_set,多分类用 filter_multi_category,后者是前者的泛化版本,但实现上并非调用前者。
另外一个场景是多行数据(每行是一个列表/元组),每行有自己的独立过滤条件,这种情况下,不能用单一的 filter_multi_category 因为它的限制是全局的。那么效率最高的方法是什么?
“多行数据过滤,每行有不同的过滤范围”的场景,最高效的方法依然是逐行遍历并独立判断。因为每一行的范围条件不同,无法通过单一的全局筛选一次性处理,也没有捷径可以避免检查每一行的每个元素。
逐行遍历,对每行用自定义逻辑判断。这是最直接的方法,也是基准。每行内遍历元素,统计所需分类的个数,然后比较范围。复杂度 O(行数 * 每行长度)。由于每行长度是常数(比如5或7),这已经是理论最优(因为必须检查每个元素才能知道分类计数)。
对于这种“每行独立范围”的过滤,无法比逐行遍历更优,因为每一行的范围信息只能单独作用于该行,无法提前剪枝或批量处理。所以效率最高的方法就是:
多行(几十万行级别)并且每行筛选范围独立的过滤最优实现方式
预计算分类标志:例如,提前生成一个长度为36的布尔数组 is_prime,使得判断 is_prime[x] 为 O(1) 且无需重复计算。
单次遍历:对每一行,遍历其元素,利用预计算标志统计计数,然后根据该行对应的范围决定是否保留。
使用Python原生循环:因为每行长度很小(最多7),Python级别的循环开销微不足道,且简单明了。
示例代码:
def filter_rows_individual(data, ranges, category_flags): """ data: list of list[int] ranges: list of (min, max) 与 data 一一对应 category_flags: list[bool] 长度为36,索引i表示数字i是否属于目标分类 """ result = [] for row, (mn, mx) in zip(data, ranges): cnt = 0 for x in row: if category_flags[x]: cnt += 1 if mn <= cnt <= mx: result.append(row) return result
为什么不选择其他方法?
向量化(numpy):每行长度不固定,且需要逐元素查表,numpy 的布尔索引也无法直接处理变长列表,反而会增加类型转换开销。
并行处理:数据量大时可用多进程,但每行计算量极小,并行带来的通信和调度开销可能超过收益。
预分组:如果不同范围的行很多,可以按范围分组,然后每组用 filter_by_count_in_set 批量过滤。但这仍然需要遍历所有行一次来完成分组,且分组后的批量过滤仍需检查每个元素,总复杂度相同,却多了一次分组循环。
结论
直接逐行遍历,每行内统计计数并判断范围,就是理论最优(时间复杂度 O(N*L),L 为每行元素个数,且无法更低)。在实际应用中(数据量几十万行,每行5-7个元素),这种方法的执行时间通常小于0.1秒,完全无需额外优化。
多行(百行左右级别)并且每行筛选范围独立的过滤最优实现方式
而对于几十行、每行最多35个元素的数据规模,总元素数量不过几百到一千多,即使最简单的Python循环也几乎瞬间完成,无需任何性能优化,这种数据量下,任何合理的方法(包括 filter_by_count_in_set、filter_multi_category 或手写循环)效率几乎没有差别,过滤方法效率都极高,差异完全可以忽略不计(可能只有几微秒到几毫秒)。因此不必担心性能问题,代码的可读性和简洁性才是最优先的考虑。如果未来数据量变大(比如几十万行),那么逐行遍历依然是必要的,但可以借助预计算标志加速。
1. 数据量估算
2. 各种方法的效率对比(在这种小规模下)
方法 | 实现 | 相对性能 | 推荐度 |
手写 for 循环 + if x in target_set | 直观,无额外分配 | 最快 | 可接受,但不如函数封装清晰 |
filter_by_count_in_set | 单一函数调用,内部也是手写循环 | 同样快 推荐,简洁统一 | 推荐,简洁统一 |
set(combo) & target_set | 每行创建临时集合 | 稍慢,但实际差别 < 0.1ms | 不推荐,代码不必要地复杂 |
filter_multi_category | 为每个元素遍历分类函数列表 | 略慢(函数调用开销),但依然微秒级 | 适合多分类场景,单分类大材小用 |
3. 结论与建议
直接使用 filter_by_count_in_set 最好:它已经封装了高效的遍历和计数逻辑,代码简单、语义清晰,并且与 core.py 中的其他筛选函数风格一致。
无需自己写循环:虽然手写循环也很快,但会增加代码重复,不利于维护。
不要担心性能:几十行数据,任何方法都不会成为瓶颈。优化重点应放在代码可读性和功能正确性上。
示例
# 高效且简洁filtered = filter_by_count_in_set(data, target_set, min_count, max_count)
如果手写循环(例如需要为每行使用不同的范围),也完全可行,同样不会有性能问题。
所谓千里之行始于足下: 不积跬步,无以至千里。不积小流,无以成江海。骐骥一跃,不能十步。驽马十驾,功在不舍。锲而舍之,朽木不折。锲而不舍,金石可镂。每天进步一点点,成功离我更近一点!
若文章对你有所帮助,请点击右上角
或
分享, 让你朋友因此而受益!真诚感谢你的关注和推荐!
欢迎交流,有任何问题欢迎留言讨论
AI已经让我们可以直通知识海洋的入口了,一起努力学习吧,解锁自己潜藏的能力!
平时灌溉,才有期待,运气一来,花自盛开!
【特别声明】本公号转载、引用的所有文章、图片、音频、视频文件等资料的版权归版权所有人所有,转载目的在于传递、分享信息给更多人。如果所选内容的作者认为其作品不宜供大家浏览,或不应无偿使用,请及时与我联系,以便迅速采取适当措施,避免给双方造成不必要的损失。