当前位置：首页>python>有趣的Python与SQL——绝对很烧脑️

有趣的Python与SQL——绝对很烧脑️

2026-07-06 23:20:38

一、SQL之查询成绩等级的中位数

1.1 问题描述

TM小哥和FH小妹在牛客大学若干年后成立了牛客SQL班，班上每个人的综合成绩用A,B,C,D,E表示，90分以上都是A，80~90分都是B，70~80分为C，60~70为D，E为60分以下。

假设每个名次最多1个人，比如有2个A，那么必定有1个A是第1名，有1个A是第2名(综合成绩同分也会按照某一门的成绩分先后)。

每次SQL考试完之后，老师会将班级成绩表展示给同学看。

现在有班级成绩表(class_grade)如下:

第1行表示成绩为A的学生有2个

第2行表示成绩为C的学生有4个

依此类推.......

1.2 查询需求

老师想知道学生们综合成绩的中位数是什么档位，请你写SQL帮忙查询一下，如果只有1个中位数，输出1个，如果有2个中位数，按grade升序输出，以上例子查询结果如下:

1.3 结果解析

总体学生成绩排序如下：A, A, B, B, B, B, C, C, C, C, D, D，总共12个数，取中间的2个，取6，7为：B，C。

1.4 SQL脚本

WITH cumulative AS (    SELECT         grade,        SUM(number) OVER (ORDER BY grade) AS running_sum,        SUM(number) OVER() AS total    FROM class_grade),positions AS (    SELECT         grade,        COALESCE(LAG(running_sum) OVER (ORDER BY grade), 0) + 1 AS start_pos,        running_sum AS end_pos,        total    FROM cumulative)SELECT DISTINCT p.gradeFROM positions pWHERE     (p.total % 2 = 1 AND (p.total + 1) / 2 BETWEEN p.start_pos AND p.end_pos)    OR    (p.total % 2 = 0 AND (p.total / 2 BETWEEN p.start_pos AND p.end_pos                          OR p.total / 2 + 1 BETWEEN p.start_pos AND p.end_pos))ORDER BY p.grade;

1.5 脚本解释

该 SQL 脚本旨在从班级成绩表(已按成绩等级分组统计学生人数)中查询学生综合成绩等级的中位数档位。

在成绩表中，每个等级对应一个学生人数，而非具体的学生列表，因此中位数的定位需基于人数的累积分布来实现。

脚本通过构建中间结果，逐步计算每个等级在整体排序中的位置区间，最终根据中位数的数学定义确定其所属等级。这种方法避免了展开每个学生记录的繁琐过程，直接利用聚合数据高效完成查询。

首先，脚本通过一层处理计算每个成绩等级的累计人数和总人数。累计人数按等级顺序从高到低逐级累加，反映了每个等级在整体排序中的结束位置；总人数则是所有等级人数的总和。

这一步为后续判断中位数位置奠定了基础，因为它将离散的等级人数转换为连续的排序序列，使得中位数的位置可以映射到具体的等级区间。

接下来，脚本通过另一层处理确定每个成绩等级在排序中的起始和结束位置。

起始位置由上一等级的累计人数加一得到，表示该等级的第一个学生在整体中的序号；结束位置即为该等级的累计人数，表示该等级的最后一个学生的序号。

这样，每个等级都对应一个连续的位置区间，方便后续判断中位数是否落在此区间内。

然后，脚本根据总人数的奇偶性判断中位数的具体位置。如果总人数为奇数，中位数位置是中间一个；如果为偶数，中位数位置是中间两个。

脚本通过检查这些位置是否落在某个等级的位置区间内，来识别中位数所属的等级。如果中位数位置跨越多个等级，则所有相关等级都会被选出，并按要求升序输出。

以上文数据为例，总人数为偶数，中位数位置是第六和第七。通过位置区间分析，第六位属于B等级，第七位属于C等级，因此查询结果输出B和C。这个例子验证了脚本逻辑的正确性，它能够灵活处理不同数据分布，确保结果符合数学定义。

总之，该脚本通过巧妙的累积计算和位置映射，高效解决了基于分组统计的中位数查询问题。其结构清晰，逻辑严谨，适用于类似“等级-人数”形式的统计场景，展现了SQL窗口函数在数据分析中的实用价值。

二、Python之计算争先进位考核奖励

2.1 考核办法

机构低成本存款占比提升目标奖励：分别设置一、二、三等奖，按两年期及以下日均存款占比提升比例排名前六名，设置一等奖1名(提升比例不低于0.5%)，二等奖2名(提升比例不低于0.4%)，三等奖3名(提升比例不低于0.3%)，分别配套机构营销费用4000元、3000元、2000元。

2.2 数学描述

2.3 Python脚本

import pandas as pdper = pd.read_excel("./机构低成本占比.xlsx", dtype={"开户机构":"str"})per["两年期占比"] = round(per["两年期占比"]*100,2)sjfq = per["数据日期"].unique().tolist()sjfq.sort()date_end = sjfq[-1]per_end = per.query("数据日期 == @date_end").reset_index(drop=True)per_end.rename(columns={"两年期占比":f"两年期占比{date_end}"},inplace=True)for date_start in sjfq[:-1]:    fir = 1    sec = 2    thi = 3    per_start = per.query("数据日期 == @date_start").reset_index(drop=True)    per_start.rename(columns={"两年期占比":f"两年期占比{date_start}"},inplace=True)    res = per_end[["开户机构","机构名称","两年期以下日均",f"两年期占比{date_end}"]].merge(per_start[["开户机构","机构名称",f"两年期占比{date_start}"]], on=["开户机构","机构名称"])    res["提升比例"] = round(res[f"两年期占比{date_end}"] - res[f"两年期占比{date_start}"],2)    res = res.sort_values(by=["提升比例",f"两年期占比{date_end}","两年期以下日均"],ascending=False).reset_index(drop=True)    res.drop(columns=["两年期以下日均"],inplace=True)    for i in res.index:        if res.loc[i,"提升比例"] >= 0.5 and fir > 0:            res.loc[i,"营销费用"] = 4000            fir -= 1        elif res.loc[i,"提升比例"] >= 0.4 and sec > 0:            res.loc[i,"营销费用"] = 3000            sec -= 1        elif res.loc[i,"提升比例"] >= 0.3 and thi > 0:            res.loc[i,"营销费用"] = 2000            thi -= 1        else:            res.loc[i,"营销费用"] = 0    res = res.sort_values(by=["开户机构"]).reset_index(drop=True)    res.to_excel(f"./机构低成本占比提升考核表(较{date_start}).xlsx", index=False)