俞文冰:数据挖掘在投资中的应用 | |||||||||
---|---|---|---|---|---|---|---|---|---|
http://finance.sina.com.cn 2006年03月30日 12:48 全景网络-证券时报 | |||||||||
□国联基金管理有限公司 俞文冰 国内外大量实证研究结果表明:上市公司定期公布的财务报告具有很强的信息含量,但是当期会计盈余数据的信息会在披露前后在股票市价中迅速得以体现。因此对于中长期投资者来说,重要的是预见未来。质地优良且未来具有较高盈利增长能力的公司是中长期投资者(包括普通投资者,证券投资基金和券商)普遍关注的对象,因为只有这类公司才能给投资
国内外学者的研究结果对第一个问题做了肯定的回答,即财务报告中是包含关于公司未来盈利情况的信息。但是现有的各种预测方法,无论是分析师的研究还是常规的统计学和计量经济学模型都有其不足之处。分析师研究主观性强、工作量大。常用统计计量模型形式单一,可能存在过度拟合而且不是以投资为导向的缺点。 针对这些不足之处,笔者采用数据挖掘方法进行弥补。数据挖掘是通过自动或半自动化的工具对大量的数据进行探索和分析的过程,目的是发现其中有意义的模式和规律。其在数据库营销、市场细分、风险分析,欺诈甄别和客户资源管理等领域的应用已经相当成熟。数据挖掘模型具有灵活高效的特点,除了经典统计的回归模型外,数据挖掘还有决策树和神经网络模型等机器学习和人工智能的非参数、非线性模型,用以拟合各种复杂的状况。由于数据挖掘模型非常的强大,很容易造成过度拟合,意即:所建立的模型,不仅解释了可以在总体中观察到的变动情况,而且还解释了由于样本个体的波动和误差(也称为“噪音”)造成的波动,从而导致模型无效。为了建立真正有用的模型,我们要尽可能防止过度拟合,数据挖掘还采用专门的方法对模型的有效性进行评估以保证预测的稳健可靠。 本文首先采用Logistic回归,决策树和神经网络建立了广义线性和非线性数据挖掘预测模型,试图寻找未来具有较好的业绩和增长能力的上市公司,取得了较好的预测效果。为了保证模型的稳健可靠。再建立完模型以后,又采用“数据拆分”和“瞻前顾后”两种方法从不同的方面对于预测的有效性进行评估,确定预测精度无论是在当年的独立数据集,还是在其他年份都是稳健可靠的。最后,以数据挖掘选股为基础,建立了投资组合,经过实证模拟,确认可以得到较高的绝对和超额的投资收益。因此本文认为,在投资领域应用数据挖掘是可行而且有效的。 <国联基金><俞文冰> 新浪声明:本版文章内容纯属作者个人观点,仅供投资者参考,并不构成投资建议。投资者据此操作,风险自担。 |