
欢迎加入专注于财经数据与量化投研的【数据科学实战】知识星球!在这里,您将获取持续更新的《财经数据宝典》和《量化投研宝典》,这两部宝典相辅相成,为您在量化投研道路上提供明确指引。 我们提供了精选的国内外量化投研的 250+ 篇高质量文章,并每日更新最新研究成果,涵盖策略开发、因子分析、风险管理等核心领域。 无论您是量化投资新手还是经验丰富的研究者,星球社区都能帮您少走弯路,事半功倍,共同探索数据驱动的投资世界!
你是否好奇过,为什么有些投资组合表现出色,而有些却差强人意?仅仅用"市场好"或"选股准"来解释,似乎过于笼统。今天,我们将学习一个金融领域的经典模型——Fama-French 三因子模型,它能帮助我们把投资收益"拆解"成不同的驱动因素,真正理解收益从何而来。
这篇文章将带你用 Python 一步步实现这个模型,即使你是金融小白,也能跟着代码动手实践。
在很长一段时间里,资本资产定价模型(CAPM)是解释股票收益的主流工具。它认为股票的收益只和一个因素有关:市场风险(Beta)。但 1992 年,经济学家 Eugene Fama 和 Kenneth French 发现,还有两个因素对股票收益有显著影响:
三因子模型的公式如下:
R_p - R_f = α + β_mkt × (R_mkt - R_f) + β_smb × SMB + β_hml × HML + ε
其中:
首先,确保安装必要的库:
pip install numpy pandas pandas-datareader matplotlib scipy statsmodels yfinance
我们需要两类数据:投资组合的收益率,以及 Fama-French 因子数据。
import pandas as pd
import numpy as np
import yfinance as yf
from scipy.optimize import minimize
import statsmodels.api as sm
import pandas_datareader.data as web
# --- 生成投资组合收益 ---
# 定义股票池
tickers = ['AAPL', 'MSFT', 'GOOGL', 'AMZN', 'JPM', 'V', 'PG', 'JNJ']
start_date = '2010-01-01'
end_date = '2023-12-31'
# 获取调整后收盘价
adj_close_df = pd.DataFrame()
for ticker in tickers:
data = yf.download(ticker, start=start_date, end=end_date)
adj_close_df[ticker] = data['Close']
# 计算对数收益率
log_returns = np.log(adj_close_df / adj_close_df.shift(1)).dropna()
# --- 获取 Fama-French 因子数据 ---
# 从 Kenneth French 网站下载日度三因子数据
ff_factors = web.DataReader('F-F_Research_Data_Factors_daily', 'famafrench', start=start_date, end=end_date)[0]
# 原始数据是百分比形式,需要除以 100
ff_factors = ff_factors / 100
print("Fama-French 因子数据(最后 5 天):")
print(ff_factors.tail())
这里我们使用一个简化的均值方差优化策略:
risk_free_rate = 0.02# 无风险利率
defget_optimal_weights(log_returns_slice):
"""
计算最优投资组合权重(最大化夏普比率)
"""
mean_returns = log_returns_slice.mean()
cov_matrix = log_returns_slice.cov()
num_assets = len(tickers)
defget_portfolio_stats(weights):
# 年化收益率
r = np.sum(mean_returns * weights) * 252
# 年化波动率
v = np.sqrt(np.dot(weights.T, np.dot(cov_matrix, weights))) * np.sqrt(252)
# 夏普比率
return np.array([r, v, (r - risk_free_rate) / v])
defneg_sharpe(weights):
return -get_portfolio_stats(weights)[2]
# 约束条件:权重之和为 1
constraints = ({'type': 'eq', 'fun': lambda w: np.sum(w) - 1})
# 边界条件:每个权重在 0 到 1 之间
bounds = tuple((0, 1) for _ in range(num_assets))
initial_weights = np.array([1./num_assets] * num_assets)
result = minimize(neg_sharpe, initial_weights, method='SLSQP', bounds=bounds, constraints=constraints)
return result.x
# 回测:按年度调仓
rebalance_dates = log_returns.resample('Y').first().index
portfolio_returns_list = []
for i in range(1, len(rebalance_dates) - 1):
start_opt = rebalance_dates[i-1]
end_opt = rebalance_dates[i]
start_hold = end_opt
end_hold = rebalance_dates[i+1]
# 用历史数据优化权重
optimization_data = log_returns.loc[start_opt:end_opt]
try:
optimal_weights = get_optimal_weights(optimization_data)
except:
optimal_weights = np.array([1./len(tickers)] * len(tickers))
# 计算持有期收益
holding_period_returns = log_returns.loc[start_hold:end_hold]
period_portfolio_return = np.dot(holding_period_returns, optimal_weights)
portfolio_returns_list.append(pd.Series(period_portfolio_return, index=holding_period_returns.index))
# 合并所有时期的收益
mpt_returns = pd.concat(portfolio_returns_list)
mpt_returns.name = "MPT_Strategy"
# 确保索引格式一致
mpt_returns.index = pd.to_datetime(mpt_returns.index)
ff_factors.index = pd.to_datetime(ff_factors.index)
# 合并投资组合收益与因子数据
merged_data = pd.merge(mpt_returns, ff_factors, left_index=True, right_index=True, how='inner')
# 计算投资组合的超额收益(减去无风险利率)
merged_data['Portfolio_Excess_Return'] = merged_data['MPT_Strategy'] - merged_data['RF']
# 重命名列
merged_data.rename(columns={'Mkt-RF': 'Market_Excess_Return'}, inplace=True)
# 定义自变量(三因子)
X = merged_data[['Market_Excess_Return', 'SMB', 'HML']]
# 定义因变量(投资组合超额收益)
y = merged_data['Portfolio_Excess_Return']
# 添加常数项(用于计算 Alpha)
X = sm.add_constant(X)
# 运行 OLS 回归
model = sm.OLS(y, X).fit()
# 输出回归结果
print("\n--- Fama-French 三因子模型回归结果 ---")
print(model.summary())
运行上述代码后,你会得到一个详细的回归报告。以下是关键指标的解读:
R-squared(R 平方):假设结果为 0.622,说明三因子模型能解释 62.2% 的投资组合收益波动。
Alpha(常数项):假设日度 Alpha 为 -0.00007658,年化约为 -1.93%。但如果 p 值远大于 0.05(如 0.619),则说明这个 Alpha 在统计上不显著,换句话说,我们的策略并没有产生真正的超额收益。
市场 Beta:假设为 1.0044,说明投资组合与市场几乎同步波动。
SMB 系数:假设为 -0.3124(p 值显著),负值说明投资组合偏向大盘股。
HML 系数:假设为 -0.1399(p 值显著),负值说明投资组合偏向成长股。
通过这个分析,我们发现:这个投资组合本质上是一个大盘成长型基金,它的表现可以被市场因子、规模因子和价值因子很好地解释,并没有产生真正的"Alpha"。
这正是因子分析的价值所在——它帮助我们透过表面的收益数字,看到背后真正的驱动力。
如果你想继续深入,可以尝试:
Fama-French 三因子模型是量化投资领域的基础工具之一。通过本文的学习,你掌握了以下技能:
记住,投资收益不是凭空产生的,背后总有原因。学会用因子模型拆解收益,你就能更理性地看待投资表现,不再被表面的数字迷惑。
核心权益如下:
星球已有丰富内容积累,包括量化投研论文、财经高频数据、 PyBroker 视频教程、定期直播、数据分享和答疑解难。适合对量化投研和财经数据分析有兴趣的学习者及从业者。欢迎加入我们!
好文推荐
1. 用 Python 打造股票预测系统:Transformer 模型教程(一)
2. 用 Python 打造股票预测系统:Transformer 模型教程(二)
3. 用 Python 打造股票预测系统:Transformer 模型教程(三)
4. 用 Python 打造股票预测系统:Transformer 模型教程(完结)
6. YOLO 也能预测股市涨跌?计算机视觉在股票市场预测中的应用
9. Python 量化投资利器:Ridge、Lasso 和 Elastic Net 回归详解
好书推荐