在量化策略的机器学习因子中,峰度和偏度是最基础也最容易被忽略的“底层因子”——它们不像是均线、MACD那样能直接给出买卖信号,却能从数据分布的本质上,帮我们判断市场波动风险和趋势方向。简单来说,二者都是描述资产收益率分布形态的统计量,打破了传统量化中“收益率服从正态分布”的理想化假设,更贴合真实市场的涨跌规律。其中,峰度主要衡量价格分布的尖峭程度和尾部厚度,以正态分布的峰度(常值3,部分计算口径为0)为基准,高峰度意味着“尖峰厚尾”,极端行情(暴涨、暴跌)出现的概率更高,是判断尾部风险的核心指标;低峰度则是“平峰薄尾”,市场波动更平缓,适合趋势跟踪策略。偏度则衡量分布的不对称性,正偏度表示右尾更长,极端正收益(大涨)概率更高,往往伴随正向趋势;负偏度表示左尾更长,极端负收益(大跌)概率更高,预示潜在下行风险;偏度为0时,分布接近对称,市场多处于震荡状态。对于量化交易者来说,读懂这两个因子,就能提前规避黑天鹅风险、捕捉隐藏趋势,为策略构建提供更扎实的决策依据。
掌握了峰度和偏度的核心含义,接下来就是最实用的Python代码实操——无需复杂推导,直接复制就能计算任意标的的峰度与偏度,附详细注释和实例解读,新手也能快速上手。我们以A股某股票(此处用模拟数据,可替换为真实行情数据)的收盘价为例,计算其日收益率的峰度和偏度,具体代码如下:
# 导入所需库(提前安装scipy、pandas即可)import pandas as pdfrom scipy.stats import skew, kurtosisimport numpy as np# 1. 构造模拟收盘价数据(可替换为真实数据,比如通过tushare、baostock获取)# 这里模拟100个交易日的收盘价,模拟真实市场波动np.random.seed(42) # 固定随机种子,确保结果可复现close_price = np.random.normal(10, 2, 100) # 模拟收盘价,均值10,标准差2df = pd.DataFrame({'收盘价': close_price})# 2. 计算日收益率(峰度、偏度均基于收益率计算,而非原始收盘价)df['日收益率'] = df['收盘价'].pct_change() # 计算相邻两日的收益率df = df.dropna() # 删除空值(首行无收益率)# 3. 计算峰度和偏度(滚动窗口可调整,此处用全部数据计算,实操常用20日/60日滚动)skewness = skew(df['日收益率']) # 计算偏度kurtosis_value = kurtosis(df['日收益率'], fisher=False) # fisher=False时,正态分布峰度为3# 4. 输出结果并解读print(f'该标的日收益率偏度:{skewness:.4f}')print(f'该标的日收益率峰度:{kurtosis_value:.4f}')# 结果解读(直接复制到代码中可运行,自动判断分布特征)if skewness > 0: skew_interpret = '正偏度,极端正收益(大涨)概率更高,倾向正向趋势'elif skewness < 0: skew_interpret = '负偏度,极端负收益(大跌)概率更高,需警惕下行风险'else: skew_interpret = '无偏,分布接近对称,市场多为震荡状态'if kurtosis_value > 3: kurt_interpret = '高峰度(尖峰厚尾),极端行情概率高,尾部风险大'elif kurtosis_value < 3: kurt_interpret = '低峰度(平峰薄尾),市场波动平缓,尾部风险小'else: kurt_interpret = '正态峰度,分布接近理想状态,实际市场中极少出现'print(f'偏度解读:{skew_interpret}')print(f'峰度解读:{kurt_interpret}')
代码运行后,会直接输出偏度、峰度数值及对应解读,实操中只需将“模拟收盘价”替换为真实标的数据(比如股票、期货的收盘价),调整滚动窗口(比如加入df['20日偏度'] = df['日收益率'].rolling(20).apply(skew)),就能实时跟踪因子变化。这里补充一个关键提醒:默认计算的峰度的口径(fisher参数),若设为True,正态分布峰度为0,此时高峰度对应数值>0,低峰度对应数值<0,代码中已标注,可根据自己的习惯调整。
结合前文的因子解读和基础计算代码,下面直接给出这套“峰度+偏度”单因子股票量化策略的完整Python代码(可直接复制运行,适配A股个股,含策略规则、信号生成、风控逻辑,新手友好)。代码完全对应前文策略规则,包含标的筛选、20日滚动因子计算、开仓/平仓信号生成、仓位控制、止损风控,同时适配真实行情数据,可直接替换标的代码落地实操,注释详细标注每一步对应策略逻辑:
import pandas as pdimport numpy as npfrom scipy.stats import skew, kurtosisimport tushare as ts # 用于获取A股真实行情数据(需注册tushare获取token,免费版足够用)# -------------------------- 1. 基础配置(新手可直接修改这里,适配自己的需求)--------------------------ts.set_token('你的tushare token') # 替换为自己的tushare token(注册地址:https://tushare.pro/)pro = ts.pro_api()stock_code = '600036.SH' # 策略标的:以招商银行为例,可替换为任意A股代码(如000001.SZ平安银行)start_date = '20210101' # 回测起始日期end_date = '20231231' # 回测结束日期window = 20 # 滚动窗口:对应策略的20日峰度/偏度计算position_ratio = 0.6 # 开仓仓位比例(50%-80%可调,此处设为60%)max_loss_ratio = 0.05 # 单只标的最大止损比例(5%,对应策略风控规则)fail_count_limit = 3 # 连续信号失效上限(3次,对应策略风控规则)pause_days = 10 # 信号失效后暂停策略天数(10天,对应策略风控规则)# -------------------------- 2. 获取并处理真实行情数据(筛选标的,计算收益率)--------------------------# 1. 获取A股个股日线数据(含收盘价、涨跌幅,用于计算收益率和筛选标的)df = pro.daily(ts_code=stock_code, start_date=start_date, end_date=end_date)# 调整数据顺序(按日期升序),计算日收益率(峰度/偏度基于收益率计算)df = df.sort_values(by='trade_date').reset_index(drop=True)df['trade_date'] = pd.to_datetime(df['trade_date']) # 日期格式转换df['日收益率'] = df['close'].pct_change() # 计算日收益率df = df.dropna() # 删除空值(首行无收益率数据)# 2. 简单标的筛选(避开ST股、次新股,此处简化处理,可根据需求优化)# (实际可通过pro.stock_basic()获取ST状态,此处省略,新手可直接跳过)print(f'获取{stock_code}({start_date}-{end_date})共{len(df)}个交易日数据,筛选后符合条件')# -------------------------- 3. 计算20日滚动峰度、偏度(核心因子)--------------------------# 滚动计算峰度(fisher=False,正态分布峰度=3,对应策略基准)df['20日峰度'] = df['日收益率'].rolling(window=window, min_periods=window).apply( lambda x: kurtosis(x, fisher=False))# 滚动计算偏度(对应策略基准0)df['20日偏度'] = df['日收益率'].rolling(window=window, min_periods=window).apply( lambda x: skew(x))# 删除滚动窗口产生的空值(前19行无因子数据)df = df.dropna().reset_index(drop=True)# -------------------------- 4. 策略信号生成(开仓、平仓、风控)--------------------------# 初始化信号和风控变量df['开仓信号'] = 0 # 0:无信号,1:多头开仓,-1:空头开仓(无法做空则设为0)df['平仓信号'] = 0 # 0:无信号,1:平仓离场df['持仓状态'] = 0 # 0:空仓,1:持仓多头,-1:持仓空头df['信号失效计数'] = 0 # 连续信号失效计数df['策略暂停'] = False # 策略暂停标志# 遍历每个交易日,生成信号(核心策略逻辑)for i in range(1, len(df)): # 若策略暂停,计数递减,不生成信号 if df.loc[i-1, '策略暂停']: df.loc[i, '策略暂停'] = True df.loc[i, '信号失效计数'] = df.loc[i-1, '信号失效计数'] - 1 if df.loc[i, '信号失效计数'] <= 0: df.loc[i, '策略暂停'] = False continue # 提取当前和前一日的因子值、持仓状态 current_kurt = df.loc[i, '20日峰度'] current_skew = df.loc[i, '20日偏度'] last_position = df.loc[i-1, '持仓状态'] fail_count = df.loc[i-1, '信号失效计数'] # -------------- 开仓规则(对应策略:顺势开仓,控制风险)-------------- if last_position == 0: # 当前空仓,可开仓 # 多头开仓:偏度>0.2(弱正偏)且峰度<3.5(低峰度) if current_skew > 0.2 and current_kurt < 3.5: df.loc[i, '开仓信号'] = 1 df.loc[i, '持仓状态'] = 1 # 记录开仓价格,用于计算止损 df.loc[i, '开仓价格'] = df.loc[i, 'close'] # 空头开仓:偏度<-0.2(弱负偏)且峰度>3.5(高峰度)(无法做空则注释此段) elif current_skew < -0.2 and current_kurt > 3.5: df.loc[i, '开仓信号'] = -1 df.loc[i, '持仓状态'] = -1 df.loc[i, '开仓价格'] = df.loc[i, 'close'] # -------------- 平仓规则(对应策略:风控优先,锁定收益)-------------- else: # 当前持仓,可平仓 # 止损平仓:峰度突破4(尾部风险激增),无论偏度如何 if current_kurt > 4: df.loc[i, '平仓信号'] = 1 df.loc[i, '持仓状态'] = 0 df.loc[i, '信号失效计数'] = fail_count + 1 # 计数+1(信号失效) # 趋势反转平仓:偏度反向突破基准线,且峰度回归3左右 elif (last_position == 1 and current_skew < 0 and 2.8 < current_kurt < 3.2) or \ (last_position == -1 and current_skew > 0 and 2.8 < current_kurt < 3.2): df.loc[i, '平仓信号'] = 1 df.loc[i, '持仓状态'] = 0 df.loc[i, '信号失效计数'] = 0 # 计数重置(信号有效) # 最大止损平仓:亏损超过5% else: current_price = df.loc[i, 'close'] open_price = df.loc[i-1, '开仓价格'] loss_ratio = (open_price - current_price) / open_price if last_position == 1 else (current_price - open_price) / open_price if loss_ratio > max_loss_ratio: df.loc[i, '平仓信号'] = 1 df.loc[i, '持仓状态'] = 0 df.loc[i, '信号失效计数'] = fail_count + 1 # 计数+1(信号失效) # -------------- 风控规则:连续3次信号失效,暂停策略10天-------------- if df.loc[i, '信号失效计数'] >= fail_count_limit: df.loc[i, '策略暂停'] = True df.loc[i, '信号失效计数'] = pause_days # 暂停天数赋值为计数# -------------------------- 5. 输出策略结果(直观查看信号和因子变化)--------------------------# 筛选出有信号的交易日(便于查看)signal_df = df[df['开仓信号'] != 0 or df['平仓信号'] != 0][['trade_date', 'close', '20日峰度', '20日偏度', '开仓信号', '平仓信号', '持仓状态']]print('\n策略信号汇总(有开仓/平仓信号的交易日):')print(signal_df.head(10)) # 打印前10条信号# 计算简单策略收益(简化版,仅作参考,实操需加入交易成本)df['策略收益'] = 0.0for i in range(1, len(df)): if df.loc[i-1, '持仓状态'] == 1: # 持仓多头,收益=当日收益率*仓位比例 df.loc[i, '策略收益'] = df.loc[i, '日收益率'] * position_ratio elif df.loc[i-1, '持仓状态'] == -1: # 持仓空头,收益=-当日收益率*仓位比例(无法做空则设为0) df.loc[i, '策略收益'] = -df.loc[i, '日收益率'] * position_ratio# 输出策略整体表现total_return = (1 + df['策略收益']).prod() - 1annual_return = (1 + total_return) ** (250 / len(df)) - 1 # 年化收益(250个交易日)max_drawdown = (df['策略收益'].cumsum().cummax() - df['策略收益'].cumsum()).max() # 最大回撤print(f'\n策略整体表现({start_date}-{end_date}):')print(f'总收益:{total_return:.4f}({total_return*100:.2f}%)')print(f'年化收益:{annual_return:.4f}({annual_return*100:.2f}%)')print(f'最大回撤:{max_drawdown:.4f}({max_drawdown*100:.2f}%)')print(f'提示:可将代码中stock_code替换为其他个股,调整window、position_ratio等参数优化策略')
代码关键说明(衔接前文,帮你快速吃透):1. 数据适配:用tushare获取A股真实行情数据,新手注册后获取免费token即可使用,也可替换为baostock、聚宽等其他数据源;2. 策略对应:每一步代码都标注了对应前文的策略规则(如20日滚动窗口、开仓/平仓条件、风控逻辑),无需再对照策略手动对应;3. 新手友好:基础配置部分(标的代码、日期、仓位等)单独列出,可直接修改,无需改动核心代码;4. 结果输出:自动筛选信号交易日、计算策略总收益/年化收益/最大回撤,直观查看策略效果;5. 补充说明:无法做空的新手,可直接注释“空头开仓”相关代码,此时负偏+高峰度信号会自动转为“空仓观望”,不影响策略运行。
最后做个核心总结,帮大家快速抓住重点、落地实操。峰度和偏度作为量化策略中的基础机器学习因子,核心价值在于“贴合真实市场”——打破正态分布的理想化假设,精准捕捉极端波动风险和趋势方向,无需复杂的算法基础,新手也能快速掌握。实操中,二者的核心用法的是:高峰度时,优先控制仓位、设置严格的风控阈值,规避黑天鹅;低峰度时,可适当放大仓位,运行趋势跟踪策略;正偏度搭配低峰度,是相对稳妥的做多信号;负偏度搭配高峰度,需果断减仓、规避下行风险。而我们给出的Python代码,可直接套用在任意标的(股票、期货、基金),只需替换数据来源、调整滚动窗口,就能将这两个因子快速融入自己的量化策略中。后续无论是单因子策略回测,还是结合其他因子优化,峰度和偏度都是不可或缺的“底层支撑”,建议大家收藏代码,实际操作一遍,就能彻底吃透其核心逻辑。