财经新闻网消息:
博士后工作站/创新研发部
2023 年 8 月
随着投资者决策过程中使用的数据维度的增加,横截面资产定价可能会陷入维度困境。 与投资者仅依靠有限的财务数据做出决策的历史时代相比,在维度困境下,研究者更容易利用传统的统计检验方法来获得“显着”的结果,从而接受因素的预测力并否定因素的预测力。 “有效市场假说”。 随着金融投资决策所使用的数据维度爆炸式增长,生活在较低维度、根据有限指标做出决策的投资者从历史中得出错误“规则”的概率也在迅速增加。 因此,在大数据时代,投资者应积极拓展数据维度,利用机器学习处理高维数据,同时也要注重样本外预测能力测试。
一
因子投资建立在传统统计方法的基础上
要素投资是当前主流的投资方式之一,基于多因素模型。 多因素模型源自20世纪70年代的套利定价理论(APT)。 该模型研究不同资产的预期回报之间的差异,而不是单一资产回报的时间序列变化。 不同资产的预期回报差异通常称为(横截面差异),由资产的不同因子暴露乘以每个因子的溢价来确定。 其中,因素描述了许多资产共同面临的某些系统性风险。 因子溢价是对这种系统性风险的补偿,反映了一类资产的共同回报。 主流多因素模型通常包含有限数量(从几个到几十个)的因素。 选择因子模型后,如果根据某种特征构建的多空投资组合的部分预期收益无法用多因子模型解释,并且显着大于零,则认为出现了“异常”。发现( 等人,2020)。 业界更关心资产在考虑成本后能否获得超额收益,而“异常”提供了独特的风险暴露或盈利机会来纠正市场定价错误。
因子投资完全建立在统计和计量经济学方法的基础上,依靠t和F等检验统计数据来发现新的“异常”。 然而,在高维数据环境下,传统的“市场异常”测试方法遭遇了巨大挑战。
二
大数据对传统范式提出巨大挑战
(1) 维数困境
大数据时代为定量分析师提供了更多的“数据矿产”可供挖掘,也显着增加了影响资本市场的因素:(1)机器学习将文本信息转化为定量信号,例如通过分析师的文本研究报告,评估分析师对公司的乐观程度以及他们是否隐瞒坏消息; (2)将图片信息转化为量化信号,如将卫星图像转化为企业实时生产数据; (3)收集社交网络信息,利用社交媒体对企业舆情以及社交媒体交叉关注带来的市场情绪影响等进行网络数据分析。
早期投资者只有财务报表等非常有限的渠道来了解公司的经营状况并判断其未来现金流的变化。 因此,股票价格主要对财务指标做出反应,长信息窗口期间的价格波动可归因于。 投资者情绪和市场噪音。 如今,随着大数据时代的趋势,通过网络购物平台,投资者可以实时关注某个品牌的新一代手机的销售情况; 通过社交平台,他们可以追踪和分析年轻一代消费者对品牌的喜爱程度,预测企业产品的溢价能力。 ; 通过招聘网站“爬取”企业用工数据等。
使用大量数据来预测股票价格成本高昂,同时普通投资者也很难获取大量数据。 结果是,虽然股票价格的决定因素越来越高维,而且股票收益的横截面差异同时受到数千个因素的影响,但绝大多数投资者“生活”在低维中。空间有限,只能感知到非常有限的数据变化,基于有限维度的数据做出收益率预测和投资决策。
(二)低维环境下的投资者更容易发现“规则”
投资者总结资本市场规则的过程依赖于统计方法。 根据样本内数据的统计分布特征,构造统计检验值和临界值,以检验样本内数据的统计分布特征在一定假设下是正态还是极端。 罕见现象。 如果极其罕见,比如低于5%,则认为原来的假设(通常是一个因素不具有预测作用)被拒绝,该因素是“显着的”。 通过上述过程,投资者可以通过数据样本检验不同的理论假设,总结资本市场运行的“规律”。 例如,过去一年表现良好的股票往往会在下个月获得超额收益。 然而,在大数据时代,股价变化的决定因素突然增多。 当企业特征因素J维度快速上升时,投资者更容易通过数据分析得出错误的统计结论。
假设决定股价横截面差异的企业特征因素有J种,投资者想要解释的股价样本量为N。当J远小于N时,投资者可以采用各种回归统计方法观察有限的g维数据总结了“规律”。 其中,观察数据的维度g反映了投资者对资本市场规律的理解和认知:每个投资者观察的维度存在一定差异,通过私人信息和公开信息观察市场并做出投资决策。 然而,Nagel(2019)通过数学推导和模拟证明,真实数据维度J和投资者观察数据的有限维度g会扭曲样本内数据的渐近分布特征。 特别是,当影响投资者决策进而影响股价的现实企业特征J不再远小于投资者想要解释的股价样本量N时,此时投资者就得到了“有效市场”假设”不成立,发现某个因素对横截面收益具有预测能力的概率也大幅增加。 在大样本环境下,基于传统统计理论的检验值也会失效。 因此,当J不再比N小很多时,使用样本数据获得的统计显着性就不再可靠。 此时,投资者得出的结论是,“法律”更像是一种“迷信”,而不是客观事实。
(三)市场对“维度困境”尚未清醒认识
事实证明,在学术期刊上发表的许多因素在样本之外是无利可图的。 以及(2016)比较了三个不同时期基于每个预测变量(因子)的投资组合回报:(1)原始学术研究中使用某个因子的数据的样本期; (2) 原始样本期之后但研究正式发表之前的一段时期; (3)论文发表后。 以“公司年龄”因素为例,该因素最初研究的样本期为1931年至1982年,论文发表于1984年,因此1931年至1982年期间属于原始样本期; 1983年属于样本外但预发表时期; 1984年以后属于出版后时期。 他们发现,基于97个量化因素的投资组合在原始样本期内的平均月回报率为0.582%; 样本外但发表前的月回报率为0.402%; 以及研究结果正式发表后的月回报。 那么就是0.264%。 研究发布后,基于因素的投资回报率在样本外下降了 26%,与样本期相比下降了 58%。 同时,样本中投资组合收益较高的因子(信号越强,越“有利可图”)在研究发表后,收益下降幅度会更大。 对于仅使用价格和交易数据以及有利于高流动性和低个人风险股票的定量因素,基于其设计的投资组合的回报在研究发表后衰减得更剧烈。
对于样本外失败,市场倾向于将其解释为:(1)“发表偏差”; (2)“数据挖掘”; (3)套利活动消除了定价错误。 “发表偏倚”是指金融学术期刊更喜欢发表统计上显着的实验结果,就像生物学期刊更喜欢发表“xx有助于治疗xx”而不是证明某种治疗效果不显着的论文,从而使证明“有效” “市场假说”失败,某种因素具有预测作用的证据更有可能通过学术讨论而传播,而那些不利的证据则被掩盖。 “数据挖掘”体现了典型的“墨菲定律”,只要某一事件有一定的发生概率,在海量的尝试下它也必然会发生。 消除错误定价的套利逻辑更难测试。
“发表偏差”和“数据挖掘”产生了大量的资产定价因素(,2011;等,2016),这对于投资者获得样本外的超额收益并没有多大帮助。 上述解释给了行业投资者一些心理安慰:只要遵循科学的统计方法,不刻意挖掘数据、伪造数据,就可以获得稳定的因素。 然而,Nagel(2019)的研究表明,即使没有“发表偏差”和“数据挖掘”,在大数据时代获得具有统计显着性的预测变量的概率也显着增加,投资者也很难预测低维度的变量。 总结有效规则。
三
维度困境下的对策
当数据维度过高时,OLS等传统统计方法无法识别参数。 过去的做法是人为地施加稀疏性约束:将大多数数据维度的系数设置为零。 这一过程反映了投资者的事先信息。 例如,一些投资者不屑于股价信息,而另一些投资者则根本不阅读分析师报告。 通过主观地减少数据维度,投资者可以从过去的历史中识别“模式”。 ”,但正如前文所述,在大数据时代,使用传统的统计方法很容易得出错误的“规律”。
对此,机器学习利用惩罚项引入稀疏特征,对数据进行收缩,以解决数据维度过大的问题,并通过降低某些信息的权重来降低预测的噪声。 尺寸收缩并不能完全解决参数不确定的问题,但它是目前最可行的方式。 同时,在大数据时代,样本外检验的重要性显着增加,即提前圈定一部分数据,独立于参数估计来检验预测效果。 不幸的是,目前还没有划分训练集和测试集的标准方法。 。
当现实世界中影响股票价格的企业特征的数据维度接近样本量时,统计学家几乎肯定会拒绝市场有效的零假设。 然而,统计学家很有可能在较低的数据维度下验证错误的“规律”。 。 在这种困境下,低成本的被动投资是投资者的第二选择。
四
总结
本文首先介绍了主流横截面投资的逻辑和方法,指出其高度依赖传统统计方法,然后介绍了金融数据维度的快速上升扭曲了金融数据的分布,导致了普遍的失败。测试指标。 随着决定股价横截面差异的企业特征因素进一步增多,拒绝“有效市场假说”的潜在概率显着增加,投资者更有可能犯错“规则”并发现大量错误的“规则”。没有实际预测能力的定价因素。 。 总而言之,数据维度困境增加了使用机器学习工具和样本外测试的紧迫性。
参考
[1] 石川,刘阳义,连向斌。 要素投资:方法与实践,北京:电子工业出版社,2020。
[2] 斯蒂芬·内格尔。 机器学习与资产定价,北京:电子工业出版社,2022。
[3],JH,2011,:费率,66:1047-1108。
[4] , CR, Liu, Y., Zhu, H., … 以及 29, 5-68 的交叉。
[5],I.,Nagel,S.,2019,大数据时代,NBER 论文。
[6],RD,D.,2016,有库存吗? 70(1):5-32。
注:以上内容不构成任何投资或建议,仅供参考。
海量信息,精准解读,尽在新浪财经APP
免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.com