Yingjie

横截面定价因子的缩减

薛英杰 / 2024-04-06


Shrinking the cross-section

Serhiy Kozak, Stefan Nagel, Shrihari Santosh

摘要

我们构建了一个稳健的随机贴现因子,囊括了大多数横截面股票收益预测变量的联合解释。通过对随机铁线因子的系数施加约束,缩减了主成分方差贡献低的候选因子特征,我们的方法实现了较强的样本外预测的能力。我们的研究结果发现,基于四因子、五因子等少数几个因子特征构成的稀疏随机贴现因子并不能充分概括股票横截面收益。然而,来源于少量主成分的随机贴现因子却表现的很好。

研究问题

实证资产定价已经发现了大量可以帮助预测股票横截面收益变化的特征。学者已经尝试着使用少数介个因子特征概括这些横截面变化,企图寻找一个由少数因子线性组合构成的特征稀疏随机贴现因子。然而,由于新的横截面预测变量的出现,传统的因子模型需要别修正并进行扩展才能捕获新的异象。但这些研究并没有告诉我们如果我们面临大量股票横截面收益预测变量,这些特征稀疏因子模型如何?

正如以前的讨论,缺乏令人信服的理由来解释为什么利用少数几个公司特征就可以概括股票横截面收益。而且由于股票组合收益的集合有一个由少数高方差主成分主导的因子结构,一个稀疏的因子足够捕捉这些风险溢价。

研究思路

  1. 从特征稀疏随机贴现因子出发,讨论了其经济理论基础。如果有可能用几个特征来描述横截面特征,这将意味着在几十只个已知的异象中存在极端的冗余。
  2. 由于使用股票收益和因子回归的协方差估计的随机贴现因子存在过拟合的问题,为了克服这个问题,我们使用了设定先验信念的贝叶斯方法。
  3. 我们构建了反映经济因素的先验分布,在该分布下,我们比较了普通最小二乘估计和后验贝叶斯缩减随机贴现因子的系数,发现应用更多后验分布缩减的随机贴现因子与更低的特征值主成分相联系。我们拓展贝叶斯方法允许其自动筛选因子,寻找一个稀疏随机贴现因子的近似。
  4. 我们利用Lasso和弹性网络方法实现了两个目标:(1)基于先验信息正则化:(2)通过设置随机贴现因子系数为零考虑了稀疏性问题。

相关文献

1. Stambaugh and Yuan (2017) 使用方差聚类分析识别了两组相关的异象,然后基于组内平均特征排序构建了因子。

  1. 当回归变量之间存在相关时,Lasso回归的表现并不是很好,反而岭回归和弹性网络比Lasso表现出更强的预测性(Tibshirani 1996; Zou and Hastie 2005)

研究贡献

  1. 我们的文章贡献了在资产定价邻域应用机器学习技术处理高维挑战的问题。
  2. 我们的方法与大多数资产定价文献的重要差异在于研究目标不同。许多论文关注的是风险溢价的估计,而我们关注的是风险价格的估计。
  3. 我们的分析也与研究人员对横截面回报预测的数据挖掘所产生的统计问题有关。

基于因子特征的资产定价

我们研究从基于因子模型特征的基本资产定价模型框架开始。首先从总体矩的角度来描述这个框架,暂时不考虑估计问题。

在任何时间点\(t\),让\(R_t\)表示 \(N\) 个股票超额收益的\(N\times1\)维向量,典型的缩减因子模型可以表示随机贴现因子为股票组合超额收益的线性组合。所以可以从超额收益的线性组合中发现一个随机贴现因子,即:

\[ \begin{equation} \tag{1} M_t=1-b_{t-1}^{\prime}(R_t-ER_t) \end{equation} \]

通过求解满足条件定价方程\(E_{t-1}[M_tR_t]=0\)中随机贴现因子的载荷\(b_{t-1}\),我们可发现一个随机贴现因子。

基于因子特征的随机贴现因子

基于定价模型特征确定因子载荷如下:

\[ \begin{equation} \tag{2} b_{t-1}=Z_{t-1}b \end{equation} \]

其中,\(Z_{t-1}\)是一个\(N\times H\)的资产特征矩阵,\(b\)是一个\(H\times 1\)的固定的向量。 为了获得实证模型,研究者通常会利用少数可度量的资产属性来近似\(b_{t-1}\),例如,Fama-French使用市值和账面市值比两个特征。

我们的目标是建立统计方法来处理大量的候选特征,并在高维背景下估计系数\(b\)

将公式(2)带入公式(1),可以产生一个随机贴现因子,该贴现因子是H个基于因子收益特征的线性组合。让\(F_t=Z_{t-1}^\prime R_t\),则

\[ \begin{equation} \tag{3} M_t=1-b_{t-1}^{\prime}(F_t-EF_t) \end{equation} \]

因子F作为我们尝试解释的资产收益和定价因子纳入候选随机贴现因子。与大多数基于特征的因子模型文献相一致,我们只关注无条件资产定价方程:

\[ \begin{equation} \tag{4} E_{t-1}[M_tF_t]=0 \end{equation} \]

在实证中,我们通常对公司特征在横截面上去均值化,这样可以使得因子\(F_t\)是零投资多空组合收益。现有文献利用市场因子捕获风险溢价水平,而用多空特征因子收益解释股票横截面变化。在本文的研究中,我们关注的是对解释横截面差异的因子的理解。

通过方程(4),我们可以解出随机贴现因子的系数:

\[ \begin{equation} \tag{5} b=(\sum\sum)^{-1}\sum E(F_t) \end{equation} \]

其中,\(\sum =E[(F_t-EF_t)(F_t-EF_t)^\prime]\)。 表明随机贴现因子系数可以解释为资产期望收益与随机贴现因子的回归系数。

在实践中,一般通过样本横截面回归来估计随机贴现因子系数,但该方法存在过拟合的问题,样本外预测效果较差,除非H非常小。当资产数量非常大时,估计随机贴现因子系数非常困难。

因子收益特征的主成分分析

为了解决过拟合的问题,本文对因子方差-协方差矩阵进行特征值分解,具体如下:

\[ \begin{equation} \tag{6} \sum=QDQ^\prime\\ D=diag(d_1,d_2,...,d_H) \end{equation} \]

其中,Q是矩阵\(\sum\)的特征向量,D是按升序排序的特征值对角矩阵,我们可以构建一个主成分因子:

\[ \begin{equation} \tag{7} P_t=Q\prime F_t \end{equation} \]

使用所有主成分,利用总体矩知识,饿哦们可以将随机贴现因子表示为:

\[ \begin{equation} \tag{8} M_t=1-b_{P}^{\prime}(P_t-EP_t) \end{equation} \]

其中,\(b_p=D^{-1}E[P_t]\)

具体方法讨论

考虑样本量为T的样本,我们取:

\[ \bar{\mu}=\frac{1}{T}\sum_{t=1}^{T}F_t\\ \bar{\sum}=\frac{1}{T}\sum_{t=1}^{T}(F_t-\bar{u})(F_t-\bar{u})^\prime \]

一个自然但简单的随机贴现因子系数\(b\)的估计量可以基于样本矩条件获得,具体如下:

\[ \bar{\mu}-\frac{1}{T}\sum_{t=1}^{T}F_t=0\\ \frac{1}{T}\sum_{t=1}^{T}M_tF_t=0 \]

这样,随机贴现因子系数\(b\)的估计量为:

\[ \hat{b}=\bar{\sum}^{-1}\bar{u} \]

除非H相对与T非常小,否则简单估计量将是非常不精确的。在高维背景下,H非常大,横截面回归有大量的解释变量,回归将出现过拟合的情形,为了克服这个问题,我们引入因子期望收益的先验经济信息,终止了对因子噪声的过拟合。我们首先从缩减随机贴现因子系数开始。

缩减估计

为了关注因子均值的不确定性,即估计中脆弱性的最重要来源,我们在\(\sum\)已知的假设下推进,考虑如下先验分布族:

\[ \begin{equation} \mu \sim N(0,\frac{\kappa^2}{\tau}\sum{}^\eta) \end{equation} \]

其中,\(\tau=tr[\sum]\),\(\kappa\)是控制\(\mu\)规模的常数,依赖于\(\tau\)和H。

与资产定价理论一致,因子收益的一阶矩与其二阶矩存在某种联系:参数\(\eta\)控制了先验分布的形状,他是先验分布经济解释的关键参数,因为他决定了一阶矩和二阶矩的关系。为了理解\(\eta\)的经济意义,引入组合主成分是非常有用的,可以以组合主成分的形成表示先验分布家族,让\(P_t=Q\prime F_t\),\(\sum=QDQ^\prime\),先验分布族可以表示如下:

\[ \begin{equation} \mu_{P} \sim N(0,\frac{\kappa^2}{\tau}D^\eta) \end{equation} \]

从主成分夏普比率的分布,我们可以得到:

\[ \begin{equation} \tag{9} D^{-\frac{1}{2}}\mu_{P} \sim N(0,\frac{\kappa^2}{\tau}D^{\eta-1}) \end{equation} \]

这样,我么可以通过考虑小特征值主成分夏普比率的先验信息来评估\(\eta\)假设的合理性。对于典型的资产收益集合,特征值的分布是高度偏斜的:少数高特征值的主成分占了大部分的收益方差,许多PC的特征值要小得多,高阶PC的最小特征值很小。

特征值分布的事实立即使我们明白\(\eta=0\)的假设在经济上是不合理的。在方程(9)中,主成分因子夏普比率的均值与特征值负相关。所以,先验意味着地特征值的主成分的期望夏普比会向无穷扩大。也就是说,\(\eta=0\)意味着存在近似的套利机会。

关键讨论

Pástor (2000)Pástor and Stambaugh (2000) 在论文中假设\(\eta=1\),这貌似更加合理,与套利缺失是一致的。然而,方程(9)更清楚地表明\(\eta=1\)意味着低特征值主成分的夏普比率被期望和高特征值主成分的夏普比率同等重要。我们认为这在经济上并不是合理的,例如,在理性预期模型中,横截面期望收益差异来源于对宏观风险因子暴露,风险溢价集中在一个或少数共同因子上。这意味着低特征值主成分的夏普比率比比主要风险溢价的高特征值主成分的夏普比率更小。

Kozak, Nagel, and Santosh (2020) 发现类似的预测性也会出现在行为模型中,在这个模型中,投资者有信念偏差。他们认为这是合理的,套利者应该被包括在投资者总体中。总之,如果这些行为偏差与高特征值主成分匹配,信念偏差只有在横截面上有定价效应。否则,套利者将发现套利机会。

因此,我们期望夏普比率随特征值而增加,这和假设\(\eta\leq1\)不一致。

由于理性投资者的最优组合权重和随机贴现因子的系数是等价的,我们想要一个先验信息,使得\(b^\prime b\)有界。这个最低的要求是\(E[b^\prime b]\)有界。我们可以证明:

\[ \begin{equation} \tag{10} E[b^\prime b]=\frac{\kappa^2}{\tau}\sum_{i=1}^{H}d^{\eta-2} \end{equation} \]

其中,\(d_i\)是对角阵D中的特征值。在资产收益数据集中,由于最小特征值\(d_H\)非常接近于0,如果\(\eta\le2\),相应的求和项\(d^{\eta-2}\)是较大的。这说明当\(\eta\le2\)时,先验将意味着理性投资者的最优投资组合可能会在最低特征值PC上下大赌注。设置\(\eta>2\)可以避免这种不切实际的投资组合权重。

为了确保先验分布合理,同时也尽可能有较少的限制,我们设置\(\eta=2\)。在此假设下,我们得到了因子系数先验分布,\(b\sim N(0,\frac{K^2}{\tau}I)\)。综合样本均值\(\mu\)的先验信息,假设一个多元正太的似然函数,我们得到系数\(b\)的后验均值,具体如下:

\[ \begin{equation} \tag{11} \hat{b}=(\sum+\gamma I)^{-1}\bar{\mu} \end{equation} \]

其中,\(\gamma=\frac{\tau}{\kappa^2T}\)

随机贴现因子系数的后验方差如下:

\[ \begin{equation} \tag{12} Var(b)=\frac{1}{T}(\sum+\gamma I)^{-1} \end{equation} \]

经济解释

为了给这个估计量提供一个经济学解释,将收益原始空间旋转到主成分空间,将方程(11)表示的随机贴现因子系数表示为主成分收益系数,我们可以获得如下系数向量:

\[ \begin{equation} \tag{13} \hat{b}=(\frac{d_j}{d_j+\gamma})\frac{\hat{u}_{p,j}}{d_j} \end{equation} \]

与简单可识别的GMM估计量\(\hat{b}_{P,j}^{ols}=\frac{\hat{u}_{p,j}}{d_j}\)相比,我们的贝叶斯估计量用缩减因子\(\frac{d_j}{d_j+\gamma<1}\)缩减随机贴现因子系数到0。最重要的是,加强了最小特征值与主成分的联系,其经济解释是我们认为低特征值的主成分对随机因子的波动有贡献是不合理的。由于这个原因,缩减低特征值主成分随机贴现因子系数的效应特别强。

作为惩罚估计量的表示

我们现在展示了我们的贝叶斯估计量隐射到机器学习文献中常用的惩罚估计量。如果我们最大化模型的横截面\(R^2\),并且该目标隐含一个最大化平方夏普比率\(\gamma b^\prime\sum b\)的的惩罚,即:

\[ \begin{equation} \tag{14} \hat{b}=\arg\min_b\{(\bar{\mu}-\sum b)^\prime(\bar{\mu}-\sum b)+\gamma b^\prime\sum b\} \end{equation} \]

这个问题和方程(11)有相同的解。也等价于以下方程的解:

\[ \begin{equation} \tag{15} \hat{b}=\arg\min_b\{(\bar{\mu}-\sum b)^\prime(\bar{\mu}-\sum b)+\gamma b^\prime b\} \end{equation} \]

方程(14)和(15)与流行的机器学习方法——岭回归类似,但存在一些重要的差异,一个标准的岭回归目标函数将对系数\(b\prime b\)施加\(L^2\)范数的约束。在方程(27)中,用对单位阵加权的定价误差被\(\sum^{-1}\)。标准的岭回归对应前面\(\eta=3\)的情形,相比\(\eta=2\),更多的低特征值主成分被缩减。

稀疏性

到目前为止,我们已经通过缩减随机贴现因子系数为0展示了处理高维挑战的方法,但没有一个系数被精确的设置为0。也就是说,我们获得的解不是系数的。考虑某些因子是对随机贴现因子的贡献是否冗余是非常有用的。在经济上,我们期望在主成分上稀疏的随机贴现因子的表示可能提供了一个很好的近似。

由于以上原因,我们在(27)给出的惩罚回归中引入惩罚参数\(\gamma_1\sum_{j=1}^H|b_j|\),由于\(L^1\)范数的几何形式,将使得一些\(\hat{b}\)元素的系数被设置为0,这将完成了稀疏性和自动因子选择,稀疏度由惩罚的强度控制。综合惩罚\(L^1\)\(L^2\),我们的估计量可以从解以下问题获得:

\[ \begin{equation} \tag{16} \hat{b}=\arg\min_b(\bar{\mu}-\sum b)^\prime(\bar{\mu}-\sum b)+\gamma_2 b^\prime b+\gamma_1\sum_{i=1}^H{|b_i|} \end{equation} \]

让数据说话,根据数据来估计惩罚参数\(\gamma_1\)\(\gamma_2\)的最优值。

参考文献

Kozak, Serhiy, Stefan Nagel, and Shrihari Santosh. 2020. “Shrinking the Cross-Section.” Journal of Financial Economics 135 (2): 271–92. https://doi.org/10.1016/j.jfineco.2019.06.008.
Pástor, L’uboš. 2000. “Portfolio Selection and Asset Pricing Models.” The Journal of Finance 55 (1): 179–223.
Pástor, L’uboš, and Robert F Stambaugh. 2000. “Comparing Asset Pricing Models: An Investment Perspective.” Journal of Financial Economics 56 (3): 335–81.
Stambaugh, Robert F., and Yu Yuan. 2017. “Mispricing Factors.” The Review of Financial Studies 30 (4): 1270–1315. https://doi.org/10.1093/rfs/hhw107.
Tibshirani, Robert. 1996. “Regression Shrinkage and Selection via the Lasso.” Journal of the Royal Statistical Society Series B: Statistical Methodology 58 (1): 267–88.
Zou, Hui, and Trevor Hastie. 2005. “Regularization and Variable Selection Via the Elastic Net.” Journal of the Royal Statistical Society Series B: Statistical Methodology 67 (2): 301–20. https://doi.org/10.1111/j.1467-9868.2005.00503.x.