因子动物园的贝叶斯解
薛英杰 / 2025-09-08
摘要
我们提出了一个关于横截面资产定价的新的,简单的贝叶斯估计和模型选择程序。我们的方 法允许交易和不可交易的因子,并适用于高维情况,有几个理想的性质。首先,微弱和虚 假的因子导致其市场风险价格的后验扩散并集中于零,使这些因子易于被发现。其次,后验 推理对这些因子的存在具有稳健的。第三,我们发现平坦的风险溢价先验导致不适当的边际 似然,使得模型选择无效。因此,我们提供了一种新的先验,它对强因子是扩散的,但会缩 小无用的因子,在这种情况下,后验概率表现良好,可用于大规模问题中的因子和(不一定嵌 套的)模型选择,以及模型平均。我们将我们的方法应用于文献中提出的一组非常大的因子, 并分析了2.25千万亿种可能的模型,获得了关于资产回报的经验驱动因子的新见解。
研究背景与问题
在过去十年左右的时间里,有两个观察结果出现在实证资产定价文献的前沿。一是,在不久 的将来,将有更多识别风险来源的实证,这被称为”因子动物园”现象。二是,使用实证资产定价中 普遍使用的方法,无用因子可能出现实证相关性,使得有关风险真实来源的推断无效。
然而,据我所知,到目前为止。没有一般性方法可以同时处理可以同时处理可交易因子和 不可交易因子、处理庞大的因子动物园、在模型错误设定后仍保持有效性以及对于虚假问题保持有效性。 因此,提出这样一个方法对于解决这些问题非常迫切。
研究方法
我们构建了一个非常简单的贝叶斯版本的经典Fama-MacBeth回归,这个方法对可交易因子 和不可交易因子都适用。在有限样本中,这个方法使无用因子很容易被检测到,同时,为强势因子 的风险溢价提供后验信息。
然而,鉴于文献中提出的风险因素过多(COCHRANE 2011),本文一种稳健的方法可以跨非必要嵌套模型进行模型选择, 并且可以处理潜在的大量可能的模型以及交易和非交易因素,这对于经验资产定价至关重要。
线性因子模型
本文重点关注横截面收益的经典线性因子模型。假设有 \(K\) 个因子, \(\mathbf{f_t}=(f_{1t},\dots,f_{Kt})^T,t=1,\dots,T\) 。 为了简化阐述,我们考虑因子均值为0的情况,因此, \(E(\mathbf{f_t})=\mathbf{0_K}\) ,并且 \(\mathbf{\bar{f}}=\mathbf{0_K}\) ,而且,N个资产的超额收益为 \(\mathbf{R_t}=(R_{1t},\dots,R_{1t })\) 。
在FM过程中,资产收益的因子暴露 \(\mathbf{\beta_f}\) 来自如下回归:
\[ \begin{equation} \mathbf{R_t}=a+\mathbf{\beta_tf_t}+\mathbf{\epsilon_t} \tag{1} \end{equation} \]
给定均值标准化的因子 \(f_t\) ,则 \(E(\mathbf{R_t})=\alpha\)。
与因子相关的风险溢价\(\mathbf{\lambda_f}\),从横截面回归估计获得,具体回归模型如下:
\[ \mathbf{\bar{R}}=\lambda_c\mathbf{1_N}+\mathbf{\hat{\beta}\lambda_f}+\mathbf{\alpha} \tag{2} \]
其中,\(\mathbf{\hat{\beta}}\)是通过时间序列估计的因子系数,\(\lambda_c\)是平均定价误差,在模型正确设定的条件下应该等于0,\(\alpha\)为超额定价误差,如果模型设定正确,意味着存在如下参数限制:
\[ a=E[R]=\lambda_c\mathbf{1_N}+\mathbf{\hat{\beta}\lambda_f} \]
因此,我们可以重新将Fama-MacBeth回归两步写成一个式子,具体如下:
\[ \mathbf{R_t}=\lambda_c\mathbf{1_N}+\mathbf{\beta\lambda_f}+\mathbf{\beta_tf_t}+\mathbf{\epsilon_t}\tag{3} \]
这个方程可以用于因子模拟研究。需要注意的是,截距项\(\lambda_c\)被包括在方程(2)和(3)中是为了独立评估模型解释股权溢价及资产横截面收益的能力。
让\(\mathbf{B}^\mathsf{T}=(\mathbf{\alpha,\beta_f})\),\(\mathbf{F_t^\mathsf{T}}=(\mathbf{1,f_t^\mathsf{T}})\),让观测值在时间序列上进行堆叠,具体如下:
\[ \mathbf{R} = \begin{pmatrix} R_1^\mathsf{T} \\ \vdots \\ R_T^\mathsf{T} \end{pmatrix}, \mathbf{F} = \begin{pmatrix} F_1^\mathsf{T} \\ \vdots \\ F_T^\mathsf{T} \end{pmatrix}, \mathbf{\epsilon} = \begin{pmatrix} \epsilon_1^\mathsf{T} \\ \vdots \\ \epsilon_T^\mathsf{T} \end{pmatrix} \]
这样,方程(1)可以被写为\(\mathbf{R}=\mathbf{FB}+\mathbf{\epsilon}\),系数和残差的协方差矩阵被估计如下:
\[ \mathbf{\hat{B}} = \begin{pmatrix} \hat{\alpha}^\mathsf{T} \\ \hat{\beta}_\mathbf{f}^\mathsf{T} \end{pmatrix}=( \mathbf{F}^\mathsf{T}\mathbf{F})^{-1}\mathbf{F}^\mathsf{T}\mathsf{R},\space \mathbf{\hat{\Sigma}}=\frac{1}{T}(\mathsf{R}-\mathbf{F\hat{B}})^\mathsf{T}(\mathsf{R}-\mathbf{F\hat{B}}) \]
在第二步中,因子风险溢价的估计如下:
\[ \mathbf{\hat{\lambda}} = \mathbf{(\hat{\beta}^\mathsf{T}\hat{\beta})^{-1}\hat{\beta}^\mathsf{T}\mathsf{\bar{R}}} \]
其中,\(\hat{\beta}=(\mathbf{1_N,\hat{\beta_f}})\),\(\mathbf{\hat{\lambda}}=\mathbf{(\lambda_c,\lambda_f^{\mathsf{T}})}\)。
估计的风险溢价\(\mathbf{\hat{\lambda}}\)的修正的协方差矩阵为:
\[ \mathbf{\hat{\sigma}^2(\hat{\lambda})}=\frac{1}{T}[(\hat{\beta}^\mathsf{T}\hat{\beta})^{-1}\hat{\beta}^\mathsf{T}\mathbf{\hat{\Sigma}}\hat{\beta}(\hat{\beta}^\mathsf{T}\beta)^{-1}](1+\hat{\lambda}_f^\mathsf{T}\mathbf{\hat{\Sigma}_f}^{-1}\hat{\lambda}_f) \]
其中,\(\hat{\Sigma}_f\)是用样本估计的因子\(f_t\)方差协方差矩阵。使用最小二乘法估计\(\mathbf{\lambda}\)具有不确定性。首先,由于我们不知道检验资产的期望收益,只能用样本均值去替代。第二,如果\(\beta\)已知,\(\hat\lambda\)的渐进协方差矩阵为 \(\frac{1}{T}[(\hat{\beta}^\mathsf{T}\hat{\beta})^{-1}\hat{\beta}^\mathsf{T}\hat{\Sigma}\hat{\beta}(\hat{\beta}\mathsf{T}\beta)^{-1}]\),额外项考虑了\(\beta\)估计的事实。
另外,在第二阶段可以用广义最小二乘法来估计,具体如下: \[ \mathbf{\hat{\lambda}} = \mathbf{(\hat{\beta}^\mathsf{T}\mathbf{\hat{\Sigma}}^{-1}\hat{\beta})^{-1}\hat{\beta}^\mathsf{T}\mathsf{\bar{R}}} \]
\[ \mathbf{\hat{\sigma}^2(\hat{\lambda})}=\frac{1}{T}(\hat{\beta}^\mathsf{T}\mathbf{\hat{\Sigma}}\hat{\beta})^{-1}(1+\hat{\lambda}_f^\mathsf{T}\mathbf{\hat{\Sigma}_f}^{-1}\hat{\lambda}_f) \]
贝叶斯Fama-MacBeth回归
这部分我们解释贝叶斯Fama-Macbeth估计方法。首先我们考虑一个时间序列回归,并假设时间序列的误差项服从独立的多元正态分布,即:
\[ \mathbf{\epsilon} \sim MVN(\mathbf(0_{T\times N},\Sigma \otimes I_{T})) \]
那么,数据\((\mathbf{R,F})\)的似然函数为:
\[ p(data|B,\Sigma)=(2\pi)^{-\frac{NT}{2}}\left|\mathbf{\Sigma} \right|^{-\frac{T}{2}}exp\{-\frac{1}{2}tr[\Sigma^{-1}(R-FB)^\mathsf{T}(R-FB)]\} \]
即使存在虚假因子,时间序列回归也是有效的。
因此,\((B,\Sigma)\)的后验分布为:
\[ B|\Sigma,data \sim MVN(\hat{B}_{ols},\Sigma\otimes(F^TF)^{-1})\\ \Sigma|data \sim W^{-1}(T-K-1,T\hat{\Sigma}) \]
其中,\(\hat{B}_{ols}\)和\(\hat{\Sigma}\)基于经典最小二乘法估计。\(W^{-1}\)为逆威沙特分布。
第一步,从基于数据的逆威沙特分布中抽取协方差矩阵\(\Sigma\),然后从参数为\(\hat{B}_{osl}\)和\(\Sigma\)的多元正态分布中抽取\(B\)。
第二步,如果模型设定正确,所有的真实因子将被包括在内,资产收益应该被风险暴露\(\beta\)和风险溢价\(\lambda\)完全解释,即:
\[ E(R_t)=\beta\lambda \]
由于因子去均值化,则有:
\[ E[R_t]=a \]
在贝叶斯框架下,在第二阶段数据产生过程为:
\[ a=\beta\lambda+\alpha \]
如果进一步假设\(\alpha_i\)服从于独立的正态分布\(N(0,\sigma^2)\),则第二步的似然函数为:
\[ p(data|\mathbf{\lambda,\sigma^2,\mathbf{\beta}})=(2\pi\sigma^2)^{-\frac{N}{2}}exp\{-\frac{1}{2\sigma^2}(a-\beta\lambda)^{T}(a-\beta\lambda)\} \]
结论
我们开发了一种新的(贝叶斯)方法来分析资产定价中的线性因素模型。该方法可以处理 由交易和非交易因素动物园生成的千万亿模型,并提供对由无用因素引起的常见识别 失败和虚假推理问题具有鲁棒性的推理。
我们已经将我们的方法应用于超过两个千万亿因素模型规范的研究,并发现:1)只 有少数几个因素(Fama和French(1992)对价值溢价的“高负低”代理,以及Daniel、Mota、 Rottke和Santos(2018)对市场和规模因素的调整版本)似乎是资产回报横截面的有力解释; 2)这四个稳健因素共同提供了一个模型,即与之前的实证文献相比,一个数量级更有可 能产生观察到的资产回报(其后验概率约为90%);3)以非常高的概率,“真正的”潜在随 机贴现因子在先前文献中提出的因子空间中是密集的,即捕获其特征需要使用24-25个 因子(在SDF稀疏度的后验均值处);4)尽管在因子空间中是密集的,但sdf隐含的最大夏普 比率并不过高,这表明就捕获的风险而言,动物园中的因素之间具有高度的共性。
作为我们的新经验资产定价框架的副产品,我们提供了一个非常简单的Fama和 MacBeth(1973)回归方法(BFM)的贝叶斯版本。我们表明,这个简单的过程(既不需要优 化也不需要调整参数,并且并不比Shanken(1992)校正标准误差更难实现)使得在有限样 本中很容易检测到无用的因素。在大量的模拟中,BFM及其GLS模拟(BFM-GLS)即使 在相对较小的时间和较大的横截面尺寸下也表现良好。我们将BFM和BFM-GLS应用于 几个值得注意的因素模型,并记录了一系列非贸易因素,如消费代理、劳动因素或消 费与财富比率,充其量只能弱识别,并且具有很大程度的模型错误规范和不确定性。