从统计套利到实战,用Python构建“只做多、不猜顶”的均值回归系统
均值回归是量化交易中最经典的思想之一——涨多了会跌,跌多了会涨。然而,在真实的金融市场中,绝大多数时间序列并不平稳,直接套用简单的“低买高卖”往往会导致灾难性亏损。本文将带你实现一个融合平稳性检验与Z‑score异常检测的均值回归策略,并基于11只美股主流ETF进行回测。策略代码完全开源并配有完整的注释,方便你直接集成到自己的回测系统中。
一、策略核心思想
我们不是简单地在价格偏离均线时交易,而是站在统计套利的视角:
收益率序列的Z‑score计算过去N个交易日的日收益率序列,用当前收益率与历史均值的偏离程度作为交易信号。Z‑score 能消除不同资产波动率的量纲影响,使信号具有可比性。
平稳性过滤(ADF检验)只有收益率序列通过增广迪基‑福勒检验(ADF检验)且 p值 < 0.05,才认为该资产近期表现出均值回复特性,从而允许开仓。这一步骤极大地避免了在趋势行情中逆势抄底。
只做多 + Z‑score 阈值
当 Z‑score < -1 且序列平稳 → 买入(认为短期过度下跌,即将反弹)
当持仓的 Z‑score > +1 → 卖出平仓(认为回归到位,落袋为安)
不使用任何趋势过滤、止损或止盈,完全依赖均值回归的自然平仓。
多资产组合我们选取了覆盖能源、金融、科技、公用事业、消费等板块的11只美股ETF(XLE, XLF, XLK, XLU, XLV, XLY, XLP, XLI, XLB, XLRE, XLC),通过分散化降低单资产风险。
二、代码实现详解(核心部分)
完整的Python代码见文末附件,这里重点解读几个关键函数。
1. 数据读取与预处理
策略从本地CSV文件读取数据,要求每只ETF一个文件,列名包含 date, open, high, low, close, volume。代码自动处理UTF‑8/GBK编码,并将所有资产的时间轴对齐到共同交易日。
def _read_local_etf_file(self, code: str): df = pd.read_csv(file_path) df['date'] = pd.to_datetime(df['date']) df.set_index('date', inplace=True) close = df['close'].astype(float) open_ = df['open'].astype(float) return close, open_
2. 平稳性检验 – ADF
使用 statsmodels 的 adfuller 对最近 lookback 根日线的收益率序列进行检验。只有 p值 < 0.05 才认为序列平稳。
def check_stationary(self, code: str, current_date: datetime) -> bool: price = self.close_data[code] hist = price[price.index <= current_date].tail(self.lookback) returns = hist.pct_change().dropna() p_value = adfuller(returns)[1] return p_value < self.adf_pvalue_threshold
注意:ADF检验的是收益率而非价格,因为价格通常是非平稳的,而收益率往往接近平稳。
3. 收益率Z‑score计算
取历史窗口内的收益率序列,计算均值和标准差,再用当前收益率与之比较。
def calculate_returns_zscore(self, code: str, current_date: datetime) -> float: hist = self.close_data[code][:current_date].tail(self.lookback) returns = hist.pct_change().dropna() current_ret = (hist.iloc[-1] - hist.iloc[-2]) / hist.iloc[-2] mean_ret = returns.mean() std_ret = returns.std() return(current_ret - mean_ret) / std_ret if std_ret != 0 else 0.0
4. 信号生成与交易执行
平仓优先:若持有某ETF且其Z‑score > +1,则次日以开盘价卖出。
开仓条件:未持仓 + ADF平稳 + Z‑score < -1 → 次日以开盘价买入。
仓位管理:每只ETF分配当前净值的10%资金,买入股数 = 资金 / 开盘价(向下取整)。
def generate_signals(self, current_date): signals = [] for code in self.close_data: z = self.calculate_returns_zscore(code, current_date) if code in self.positions and z > self.z_exit: signals.append({'code': code, 'action': 'SELL'}) elif code not in self.positions: stationary = self.check_stationary(code, current_date) if stationary and z < self.z_entry: signals.append({'code': code, 'action': 'BUY'}) return signals
交易执行时使用次日的开盘价,并扣除固定佣金(万分之一)和滑点(万分之二)。
三、回测结果与绩效分析
我们使用2019年1月1日至2026年4月10日的数据进行回测(参数:lookback=120,即半年交易日)。初始资金100万美元。实际回测结果如下:
| 指标 | 数值 |
|---|
| 总收益率 | +27.02% |
| 年化收益率 | +3.60% |
| 年化波动率 | 9.61% |
| 夏普比率 | 0.06 |
| 最大回撤 | -17.55% |
| 交易胜率 | 62.9% |
| 交易次数 | 1240 笔 |
| 平均盈亏 | 244 美元 |
从结果看,策略在长达7年的美股牛熊交替中实现了正向绝对收益,且最大回撤控制在18%以内。值得注意的是,胜率高达62.9%,说明基于收益率Z‑score的均值回归信号具有较高的预测准确性;但由于平均盈亏较小(每笔仅约244美元),整体收益并不突出。年化3.60%的收益率略低于同期美股大盘,然而夏普比率仅为0.06,表明策略承担的风险并未获得足够超额回报。
为什么夏普比率偏低?主要原因在于策略开仓频率较高(1240笔交易),且许多交易仅在微利后便因Z‑score回到+1而平仓,未能捕捉到大的趋势性反弹。此外,2022年美股加息周期中,部分板块ETF(如科技XLK、消费XLY)出现长期下跌,均值回归信号频繁触发但反弹力度不足,导致磨损。
净值曲线与回撤图
尽管如此,该策略在震荡市和温和下跌环境中表现出色,且完全避免了做空风险。对于追求绝对收益、能接受较低夏普的投资者,它仍然是一个可用的辅助策略。
四、策略优势与潜在风险
优势
完全自动化:无需人工判断顶底,Z‑score和ADF检验提供了客观的进出场依据。
多资产分散:覆盖不同板块,单一ETF的极端波动对整体组合影响有限。
只做多:符合大多数投资者的交易习惯,且避免了做空带来的无限风险。
高胜率:62.9%的胜率说明信号质量较好,容易建立交易信心。
风险与不足
低盈亏比:平均每笔盈利仅244美元,而最大回撤达到17.55%,意味着策略需要大量小胜来弥补少数亏损,对资金曲线平滑度要求高。
长期横盘震荡:若市场长期无显著波动,Z‑score可能频繁触发假信号,导致磨损。
跳空风险:使用次日开盘价执行,如果隔夜出现重大利好/利空,实际成交价可能大幅偏离信号时的预期。
平稳性检验滞后:ADF检验基于历史窗口,当市场结构突变时(如ETF更换成分股),平稳性可能瞬间失效。
没有止损:如果某只ETF在买入后继续暴跌,Z‑score变得更负,策略反而不会平仓(因为Z‑score未回到+1)。这可能导致单笔大额亏损。
五、改进方向与扩展思路
根据实际回测暴露的低夏普问题,建议从以下方向优化:
增加盈亏比过滤:仅在Z‑score < -1.5 或 -2.0 时开仓,避免浅度偏离带来的频繁交易。
动态止盈:将Z‑score出场阈值提高至1.5或2.0,让利润奔跑。
波动率目标仓位:根据当前波动率调整每只ETF的仓位比例,高波动时降低风险暴露。
加入时间止损:持仓超过20个交易日仍未触发平仓,则强制离场。
引入趋势过滤:例如用200日均线方向判断,只在市场处于震荡或下跌阶段启用均值回归。
卡尔曼滤波平滑:用卡尔曼滤波估计时变均值,替代简单滚动窗口,适应结构性变化。
六、如何使用代码运行回测
准备数据:从雅虎财经、Alpha Vantage或其他数据源下载11只ETF的日线CSV,确保列名与代码要求一致。
安装依赖:
pip install pandas numpy statsmodels matplotlib
修改路径:将 local_data_path 改为你的数据文件夹路径。
运行:
if __name__ == "__main__": strategy = QuantConnectMeanReversion( local_data_path=r"你的数据路径", start_date="20190101", end_date="20260410", lookback=120, z_entry=-1.0, z_exit=1.0, initial_capital=1_000_000 ) strategy.run()
输出:控制台打印绩效报告,同时生成 trades_qc_style_us.csv 交易明细,以及净值曲线图。
七、结语
均值回归策略的魅力在于其底层逻辑的朴素与普适性,但成功的执行离不开统计严谨性(平稳性检验)和风险控制(多资产分散)。本文提供的策略代码经过实战回测,虽然夏普比率不高,但胜率可观,可作为震荡市场中的辅助策略或进一步优化的起点。记住,没有任何策略能永远有效,定期复盘、动态调整才是长期盈利的基石。
如果你对统计套利、配对交易或更高级的协整策略感兴趣,欢迎在评论区留言,我们下一期将深入探讨 “基于协整的ETF配对交易”。
附:完整代码文件请关注公众号并回复关键词“均值回归ETF”获取代码和ETF数据下载链接。
声明:本文所有内容仅为量化策略教学与交流,不构成任何投资建议。市场有风险,投资需谨慎。