【华安证券·金融工程】专题报告：数据挖掘的修正与基金的业绩表现|基金_新浪财经

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

本篇是“学海拾珠”系列第二百篇，文献扩展了Markowitz等人的数据挖掘校正测试，允许定量模型的回报具有不同的市场贝塔值，并将其用于估计基金经理技能的显著性，还计算了使用过去回报测算时犯下第一类错误和第二类错误的概率。文献推导了使用过去回报预测未来持有回报的信息系数的近似公式，并将其与经验观察到的信息系数进行了比较。回到国内基金市场，也可以采用类似的方法测算基金在预测未来回报过程中是否采用了合适的数据样本，并验证指标的持续性。

业绩评估指标：超越传统t统计量

Lo（2002）利用Hansen于1982年提出的广义矩估计（GMM）方法，推导出夏普比率的估计误差，而Guerard、Wang和Xu（2019）进一步扩展GMM，推导出特雷诺比率的估计误差。一旦得出估计误差，就可以计算t值， t值能够验证或反驳与这些绩效指标相关的零假设，从而为做出明智的投资决策提供坚实的基础。

然而，考虑到基金的数量众多，仅对单个t统计量进行分析可能会高估有能力基金经理的比例：基于5年、10年和20年的回报数据，分别有20%、30%和50%的基金经理被证明是有能力的——这显然是一种高估。Fama和French（2010）通过三因子或四因子模型生成的alpha值指出，只有2%的基金经理表现出了统计学上显著的选股技能，这突显了采用超越传统t统计量的高级统计技术来完善基金选择过程的必要性。

数据挖掘的修正测试

文献推导的模型能够基于过去的回报来计算基金的伪发现率（false discovery rate）。它还能够计算过去回报对未来回报的横截面预期预测能力。发现，即使使用五年的数据，使用过去回报来做出决策时犯下第一类错误和第二类错误的概率也非常高。

对于大盘基金，随着未来持有期从3个月延长至12个月，其预测能力增强。而对于小盘基金，随着未来持有期的延长，信息系数下降。对于给定的未来持有期，最近一年的收益的预测能力超过了最近三年的收益，这与线性收益模型的预测相反。这可能与近因偏差或短期周期效应有关。

文献结论基于历史数据与海外文献进行总结；不构成任何投资建议。

引言

截至2022年底，美国独立的共同基金数量已激增至7000个，每个基金由不同的基金经理管理。此外，美国注册投资顾问（RIA）的数量也呈现前所未有的激增，总数高达15,144名。这些顾问能够长久成功的关键因素在于他们能够从众多基金中识别出表现最佳的基金。显然，基金经理在选股方面的技能存在很大差异。然而，关于基金过去的成功多大程度上归功于运气，以及过去的成功是否能可靠地预测其未来表现，仍然是一个有争议的问题。

多种指标都可以来衡量投资组合的表现，包括算术平均值、几何回报率和风险调整后的回报率。早期的研究者，如特雷诺（Treynor，1965年）、夏普（Sharpe，1966年）和詹森（Jensen，1968年），分别引入了特雷诺比率、夏普比率和詹森阿尔法作为业绩指标。这些业绩指标提供了点估计值，即特定时期内投资组合表现的快照。

任何普通最小二乘法（OLS）程序包的基本要素，即平均收益和阿尔法（alpha）的估计误差，有助于确认点估计的精确性。在2002年的一篇文章中，Lo利用汉森（Hansen）于1982年提出的广义矩估计（GMM）方法，推导出夏普比率的估计误差，而Guerard、Wang和Xu于2019年进一步扩展了GMM的应用范围，推导出特雷诺比率的估计误差。

一旦得出这些估计误差，就可以计算t值，即用于评估结果数据集置信水平的统计标准。t值能够验证或反驳与这些绩效指标相关的零假设，从而为做出明智的投资决策提供坚实的基础。

然而，考虑到基金的数量众多，仅对单个t统计量进行分析可能会高估有能力基金经理的比例。这一点在以下发现中得到了证实：基于5年、10年和20年的回报数据，分别有20%、30%和50%的基金经理被证明是有能力的——这显然是一种高估。

Fama和French在2010年进行的一项研究强化了这一点，他们指出，只有2%的基金经理表现出了统计学上有效的选股技能。这种技能是通过三因子或四因子模型生成的阿尔法值来衡量的。这突显了采用超越传统t统计量的高级统计技术来完善基金选择过程的必要性。

文献应用并扩展了Markowitz和Xu于1994年提出的用于评估回测模型的数据挖掘校正技术，以研究基金技能的变化。模型能够基于过去的回报来计算共同基金的伪发现率（false discovery rate）。它还能够计算过去回报对未来回报的横截面预期预测能力。在大多数情况下，经验信息系数（ICs）与预期ICs在统计学上没有显著差异，无法确认或拒绝预期信息系数随过去和未来回报增加而变化的单调性。

数据挖掘的修正

2.1 音乐情感

1964年引入的CRSP数据库包含从1925年12月起所有纽约证券交易所上市股票的数据，标准普尔（Standard & Poor）在1962年通过推出其全面的Compustat数据库，进一步丰富了数据的可用性。利用这两个数据库，可以轻松找到并仔细研究无数的资本资产定价模型，无论是线性的还是非线性的。这些新发现的资产定价模型的可靠性转化为对未来回报的预测，需要进行细致的测试和验证。Lopez（2018年）观察到，大多数基于机器学习工具的基金都会失败，并列出了10个原因。著名研究人员Arnott、Harvey和Markowitz（2018年）提出了一个结构化回测框架，以提高准确发现风险因素的可能性。

该框架涵盖七个广泛的类别，其中第二个类别侧重于多重测试和统计方法。在这里，重点是跟踪所有已进行的测试并执行多重均值测试，以确保这些资产定价模型的有效性。然而，基金经理仍在努力判断这些新发现模型的卓越表现是运气因素的结果，还是新风险因子的识别。

为了增强对报告业绩的判断信心，存在两种主要的测试方法。第一种方法是根据多重假设测试的背景，调整每个模型业绩度量的统计显著性（p值），如Harvey和Liu（2020年）所建议的那样，这有助于管理伪发现率（FDR）并减少I类错误的风险，即错误地拒绝有效的零假设（基金经理没有选股技巧）。Benjamini和Hochberg（1995年）首次提出了这种p值调整方法，而Benjamini和Yekutieli（2001年）则对其进行了进一步扩展。这种方法在医学研究领域得到了广泛应用。

第二种方法采用Markowitz和Xu于1994年提出的经验贝叶斯法。它建立在贝叶斯估计方法的原则之上，并有一个初步假设，即所有测试模型都具有相等的价值。正如Bloch 等人（1993）对日本和美国市场、Guerard 等人（2018）对中国股市、Guerard等人（2014）对美国市场以及Guerard, Xu, 和Markowitz（2013, 2021）对全球市场所做的那样，每个量化投资者都应该进行这种数据挖掘的修正测试。

基金业绩模型

Markowitz和Xu（1994）提出了一种研究原始收益率R的替代方法，即考虑1+R的对数，表示为ln(1+R)，使用这种方法的原因如下：

1、可加性：这一数学特性简化了计算，特别是在评估不同时间段的收益率时，通过累加较短的对数收益率来表示任何延长的对数收益率时间段。

2、经风险调整的收益率：对数收益率近似于平均收益率减去方差的一半，这为投资收益提供了经风险调整的视角，从而能够更全面地理解业绩。

3、长期视角：正如Markowitz（1976，2006）、Latane（1959）以及MacLean, Thorp,和Ziemba（2011）所强调的，对数收益率ln(1+R)在长期内具有重要意义，因为这种衡量方式包含了更多信息，并提供了更准确的长期业绩视角。

该方法提供了对收益率及其伴随风险的更好理解，尤其是在较长的时间间隔内。

假设有N个共同基金。对于每个共同基金，可以将其在t期的观测收益率表示为R_it。那么，1加收益率的对数模型g_it可以表示为：

此处μ_i为技能系数，z_t为市场变量，ζ_it为特质性变量。

所有随机变量相互独立，则

相信基金经理有意且谨慎地选择了β，因此β_i z ̅应属于基金经理的技能范畴。解决这一问题的一个方法是去除市场效应的平均值，使得平均收益为零，z ̅=0。

对于投资顾问而言，以类别平均值为基准的共同基金相对业绩是关键。平均跨k期持有期回报率是z_t-k,t。

过去k持有期回报率的横截面方差是

过去k持有期回报率与未来l持有期回报率的预期横截面协方差是

通过分别对相关性公式的分子和分母应用期望算子，只能估计两个持有期之间的相关系数IC_t,kI，它是时间依赖的

如果将这个公式的分子和分母都取市场回报预期，可以近似地将平均IC_kI视为

公式（3）清楚地揭示了提高过去收益率预测能力的两种方法：

1、增加形成期或评估期的时长。

2、使用十分组投资组合来减少特质噪声𝜎2𝜁 。

十分组投资组合在学术研究中很常见，用于证明市场异常或低效。例如，Jegadeesh 和 Titman（1993）以及 Carhart（1997）在他们的研究中确实使用了十分组投资组合来研究动量策略。

Xu 等（2017）的研究与此不同，他们专注于创建有效的共同基金投资组合，目的是通过战略性地选择一系列基金来超越市场回报。在实践中，由于管理和跟踪众多投资的复杂性，注册投资顾问（RIA）通常主张每个类别选择一只或两只共同基金。

如果不进行多元化投资，可以计算出伪发现概率（false discovery probability，FDP），即基金经理即使拥有出色的持有期回报率，也不具备真正高于平均水平的技能的概率：

图表6中报告了伪发现概率FDP(k)，即当一只基金的k期表现比组合平均值高出两个标准差，而真实均值μ为负的情况。

投顾的责任是识别表现优异的基金。伪发现概率公式（4）表明，延长评估期可以降低挑选到无能力基金经理的机会，但事情并非那么简单，表4和表5中显示，过去一年的收益率比过去三年的收益率具有更强的预测能力。

一旦为客户选择了基金，就需要监控其表现，如果其表现不如预期，需要决定是否将其剔除。这样做时，有可能犯第二类错误（即当基金表现不佳时，错误地剔除了一位有能力的基金经理的概率）。第二类错误的公式为

最后一个等式是根据正态分布的对称性质推导出来的。

数据挖掘的修正测试

选择有技能的基金经理的挑战在于技能中存在大量不可观测的方差。为了解决这个问题，需要估计技能的方差，并验证证据是否强烈支持技能方差显著大于零的假设。

可以将其与看似无关的回归相比较，并利用广义最小二乘法（GLS）回归来估计2×N个参数（μ_i，β_i），并使用F统计量来检验零假设。

GLS 回归提供了技能向量和特质方差𝜎2𝜁 的估计值。然而，由于特质项误差的干扰，估计的技能向量𝜇 = (𝜇1, 𝜇1, … , 𝜇𝑁)′的方差并不代表真实的技能方差。为了纠正这一点，应用了一种单独的估计方法：

正如在回溯测试中所应用的那样，Markowitz和Xu（1994）假设所有模型的β变量都等于1，市场效应可以是明确的基准业绩，也可以通过方差分析（ANOVA）隐式确定。

可以将ANOVA集成到广义最小二乘回归形式中，估计N×(T-1)个参数(μ_i,η_t)，并利用F统计量（与ANOVA统计量一致）来检验相同的零假设（5）。事实证明，估计的市场效应η_t与（1）中观察到的类别的平均回报率z_t相同。文献将报告GLS方程（1）和ANOVA方程（7）的估计和结果，以供彻底分析。

通过GLS，估计的技能

向量μ ̂将是样本均值

Markowitz和Xu（1994）认为，从贝叶斯的角度来看，最佳估计是

其中g ̿是所有共同基金平均回报率的总体均值。估计的技能是收缩样本均值，收缩因子与拒绝零假设的强度成反比。

稳健性检验

所有共同基金的数据均来自晨星公司（Morningstar）。晨星公司根据基金的投资目标将其归入不同的类别，获取了美国本土所有特定分类下的基金数据：美国大盘混合基金、大盘成长基金、大盘价值基金、小盘混合基金、小盘成长基金和小盘价值基金。为了符合的标准，每只基金截至2023年10月的管理资产（AUM）必须达到至少1亿美元，并且具有20年的月度收益历史。采取了以下数据清理措施：

1、从研究范围中剔除指数基金，因为它们的目标是复制市场基准，这本身就意味着其alpha值为零且beta为1。将这些基金纳入研究范围只会引入更多异常项。

2、采用了净收益而非总收益（扣除费用前的收益），因为净收益更能准确反映投资者的实际回报。

3、将不同份额类别的收益合并为一个，因为不同的份额类别由相同的团队和模型管理。

文献分析基于幸存者偏差的数据集。显然，已清盘的基金管理者缺乏必要的技能。将这些基金纳入研究范围将简化数据挖掘校正测试。关于如何在模拟中使用共同基金处理幸存者偏差数据，可以参考Xu等人（2017）的研究。

图表2数据概要报告了标准普尔500指数（S&P 500 Index）和罗素2000指数（Russell 2000 Index）的夏普比率（SR）和特雷诺比率（TR）及其估计误差。特雷诺比率的计算需要基金收益相对于市场收益的贝塔系数。计算中使用标普500作为大盘基金的市场收益，使用罗素2000指数作为小盘基金的市场收益。在此设置下，标普500指数和罗素2000指数的特雷诺比率是无风险利率之上的超额收益。

图表3数据概要表明，大盘基金的数量多于小盘基金，平均月度收益率低于1%。不出所料，平均对数收益率比平均收益率低10个基点（bps）。对数收益率均值的标准差比算术均值的标准差大4个基点。

图表 4 数据概要报告了平均年化夏普比率和特雷诺比率及其标准差。不出所料，平均而言，共同基金在夏普比率和特雷诺比率方面表现逊于指数，但小盘成长型基金在特雷诺比率方面表现优于罗素 2000 指数。

图表5展示了单因子收益模型（1）和受限模型（7）的估计参数，以及与零假设（5）相关的F统计量。将贝塔系数引入收益模型（1）显著降低了小盘基金的特质方差，并增加了技能方差。

有趣的是，广义最小二乘法（GLS）估计的F统计量在统计学上比方差分析（ANOVA）的F统计量更为显著。对于小盘成长型基金，单因子模型无法拒绝零假设。此外，方差分析模型在小盘成长型和价值型基金中均无法拒绝零假设。

这些结果突显了在尝试确定不同投资环境下有效的业绩模型时，所固有的复杂性和细微差别。简单的方差分析（ANOVA）模型的表现与复杂的贝塔模型一样好。文献将通过估计伪发现概率来重申这一观点。

图表6展示了评估期为一年、三年和五年的伪发现概率。这些概率是基于图表5中报告的广义最小二乘法（GLS）和方差分析（ANOVA）的方差估计得出的。

有趣的是，这两个模型得出的结果之间并没有显著差异。即使在五年的周期内获得令人印象深刻的回报，仍有超过25%的可能性是这些成果仅仅归因于好运，而并非一定是基金经理的技能。

这些发现强调了将投资成功完全归因于能力的复杂性，强调了评估和衡量共同基金业绩时采取谨慎和多样化方法的必要性，并对评估标准指标提出了质疑，强调了即使在长期内，运气也可能产生潜在影响。

业绩持续性分析

（1）和（7）中的线性收益模型使能够计算未来收益与过去收益之间的横截面相关性。由于在模型（1）和（7）中去除了市场收益的均值，因此估计的技能向量μ ̂ 与过去收益成正比。这意味着广义最小二乘法（GLS）、方差分析（ANOVA）和简单的历史收益在信息系数表示的预测能力方面都具有相同的预期。

在图表7和图表8中详细列出了横截面IC，列标题（k，l）表示使用过去k个月的评估期收益来预测未来l个月的持有期收益。“Average”子列反映了非重叠l持有期信息系数的平均值。“GLS”子列表示使用模型（3）和GLS估计的方差计算出的预期信息系数，而“ANOVA”子列是使用ANOVA估计的方差计算出的信息系数。GLS和ANOVA中信息系数旁的星号表示观察到的信息系数与模型（3）的预期信息系数在统计上是否存在显著差异。在大多数情况下，这些差异在统计上并不显著。

预期信息系数模型（3）表明，更长的未来持有期或过去评估期与更高的信息系数相关，然而，这一特征并未得到实证支持。在将最近一年的收益作为预测变量时，对于大盘基金，随着未来持有期从3个月延长至12个月，其预测能力增强。而对于小盘基金，随着未来持有期的延长，信息系数下降。对于给定的未来持有期，最近一年的收益的预测能力超过了最近三年的收益，这与线性收益模型的预测相反。

为了计算这些信息系数之间的统计差异，必须找到共同期下的可比信息系数。图表9报告了基于共同预测点的差异。结果与图表7和图表8中信息系数的直接相减略有不同。预计图表9中的所有数字都应为正数。但实证结果显示相反，尽管其中只有很少一部分在统计上具有显著性。

图表10展示了不同过去评估期和未来持有期下，最高十分组收益与最低十分组收益之间的差异。令人惊讶的是，很少有差在统计上与零有显著差异。这可以归因于2008年和2022年的市场动荡。但这确实支持了从信息系数（IC）结果中得出的结论，即最近一年的收益对未来收益的预测能力高于最近三年的收益。

为了了解为什么信息系数（IC）既没有随着延长评估期而增加，也没有随着延长持有期而增加，接下来研究这是否可以归因于市场效应的序列相关性或共同基金业绩的偏度。

图表10表明，市场确实存在序列相关性，且基金存在偏度。有趣的是，尽管存在序列相关性，但标准的Durbin-Watson统计量并未有力地拒绝无相关性的假设。对于这一时期，标普500指数和罗素2000指数的偏度分别为-0.58和-0.46。

存在序列相关性时，信息系数（IC）的模型（3）修改如下：

经过分析，尽管计算了修改后的信息系数，但与原始信息系数相比，并没有显著差异。这意味着其他未识别的因素可能影响了信息系数在延长评估期或持有期时的模式，需要更深入的研究。

至于方差分析（ANOVA），采用Driscoll和Kraay（1998）的方法可以容纳具有潜在序列相关性的未知市场效应。

由于序列相关性不影响广义最小二乘（GLS）估计，因此可以合理推断，它们也不会对方差分析（ANOVA）估计产生显著影响。

由于共同基金业绩存在明显的偏斜度，Almira等人（2004）开发了一种新的风险业绩指标，称为Rachev比率，这可能是预测基金收益的一个有前途的指标。

总结

文献中，无论是简单模型评估还是复杂模型评估，都得出了相同的结论：区分共同基金表现中的运气和技能是一项棘手的任务。数据还表明，在大盘股基金中识别这些因素的难度要小于小盘股基金。

共同基金推荐中的II类错误和伪发现概率仍然很高，这反映了两个需求之间的内在紧张关系：需要较长的回看期来过滤掉运气因素，同时又要解决客户不耐烦的问题。这一困境在彭博社2023年报道的先锋集团最近遭遇的诉讼中尤为突出。

投资组合中风险调整后的回报（即阿尔法）的持续性是许多学者关注的焦点。好消息是，Cuthbertson、Nitzsche和O’Sullivan（2022）的研究表明，包含少数杰出基金的投资组合显示出持续的alpha水平，可评估的管理人员技能仅占观察到的基金经理业绩横截面差异的一部分，见模型（8）。

除了管理人员技能外，其他因素也能解释共同基金的持续表现。Wermers（2000）提出，基金的费用比率和交易成本会影响其持续性。高昂的费用和交易成本会侵蚀收益，从而降低持续性。

Berk and Green（2004）关于资金流动的研究是解开这一难题的另一块重要拼图。他们的研究表明，资金进出基金会影响其维持alpha的能力。例如，较大的基金规模可能会通过降低基金利用有限投资机会的能力来侵蚀alpha。

12个月回报率比三年回报率更具预测性可能由多种因素造成。一个合理的解释与近因偏差有关，即较新的数据往往对预测和决策产生更大影响。金融市场相当动态，市场条件不断变化。因此，最近的表现信息可能比旧数据更能反映和预测未来的表现。

另一个解释可能是，基金可能会在三年内改变其投资策略或基金经理，或者市场条件可能会发生变化，从而改变基金的表现。这可能会使三年回报率的预测能力不如12个月回报率。

另外，这也可能是由于市场中的短期周期效应，这些效应在12个月的结果中可能得到更准确的反映。换句话说，市场可能会以通常短于三年的周期波动，这意味着12个月的回报率可能包含更多关于当前周期阶段的信息。

“

文献来源

核心内容摘选自Ganlin Xu，John Guerard在Journal of Portfolio Management上的论文《Data Mining Corrections and Mutual Fund Performance》。

文献结论基于历史数据与海外文献进行总结；不构成任何投资建议。

本报告摘自华安证券2024年8月14日已发布的《【华安证券·金融工程】专题报告：数据挖掘的修正与基金的业绩表现》具体分析内容请详见报告。若因对报告的摘编等产生歧义，应以报告发布当日的完整内容为准。

分析师：严佳炜执业证书号：S0010520070001

分析师：钱静闲执业证书号：S0010522090002

海量资讯、精准解读，尽在新浪财经APP

文章关键词：基金基金经理华安证券数据挖掘

VIP课程推荐

加载中...

APP专享直播

1/10

新浪财经公众号

24小时滚动播报最新的财经资讯和视频，更多粉丝福利扫描二维码关注（sinafinance）

【华安证券·金融工程】专题报告：数据挖掘的修正与基金的业绩表现

VIP课程推荐

新浪直播

@@title@@

APP专享直播

股市直播

7X24小时

【华安证券·金融工程】专题报告：数据挖掘的修正与基金的业绩表现

VIP课程推荐

新浪直播

@@title@@

APP专享直播

热门推荐

股市直播

7X24小时