财经纵横新浪首页 > 财经纵横 > 基金 > 正文
 

俞文冰:数据挖掘在投资中的应用


http://finance.sina.com.cn 2006年03月30日 12:48 全景网络-证券时报

  □国联基金管理有限公司 俞文冰

  国内外大量实证研究结果表明:上市公司定期公布的财务报告具有很强的信息含量,但是当期会计盈余数据的信息会在披露前后在股票市价中迅速得以体现。因此对于中长期投资者来说,重要的是预见未来。质地优良且未来具有较高盈利增长能力的公司是中长期投资者(包括普通投资者,证券投资基金和券商)普遍关注的对象,因为只有这类公司才能给投资
者带来持续的回报。而财务报告包含了大量描述公司经营状况的数据。这些数据应能为投资者提供关于公司未来盈利能力的信息。对于中长期投资者而言,需要做的就是利用这些信息挖掘出未来能够具有较高盈利水平同时又具有较好的成长性公司。因此,站在投资者的立场,以下问题是值得研究的:(1)这些财务报告中是否包含关于公司未来盈利情况的信息?(2)若回答是肯定的,是否可以找到较好的方法来利用这些信息,获得较精确的预测效果?(3)若能够找到较精确的预测方法,这个预测是否是有效的?(4)如果盈利优质成长的预测模型是有效的,那么该模型选出的投资组合能否活的超额收益?

  国内外学者的研究结果对第一个问题做了肯定的回答,即财务报告中是包含关于公司未来盈利情况的信息。但是现有的各种预测方法,无论是分析师的研究还是常规的统计学和计量经济学模型都有其不足之处。分析师研究主观性强、工作量大。常用统计计量模型形式单一,可能存在过度拟合而且不是以投资为导向的缺点。

  针对这些不足之处,笔者采用数据挖掘方法进行弥补。数据挖掘是通过自动或半自动化的工具对大量的数据进行探索和分析的过程,目的是发现其中有意义的模式和规律。其在数据库营销、市场细分、风险分析,欺诈甄别和客户资源管理等领域的应用已经相当成熟。数据挖掘模型具有灵活高效的特点,除了经典统计的回归模型外,数据挖掘还有决策树和神经网络模型等机器学习和人工智能的非参数、非线性模型,用以拟合各种复杂的状况。由于数据挖掘模型非常的强大,很容易造成过度拟合,意即:所建立的模型,不仅解释了可以在总体中观察到的变动情况,而且还解释了由于样本个体的波动和误差(也称为“噪音”)造成的波动,从而导致模型无效。为了建立真正有用的模型,我们要尽可能防止过度拟合,数据挖掘还采用专门的方法对模型的有效性进行评估以保证预测的稳健可靠。

  本文首先采用Logistic回归,决策树和神经网络建立了广义线性和非线性数据挖掘预测模型,试图寻找未来具有较好的业绩和增长能力的上市公司,取得了较好的预测效果。为了保证模型的稳健可靠。再建立完模型以后,又采用“数据拆分”和“瞻前顾后”两种方法从不同的方面对于预测的有效性进行评估,确定预测精度无论是在当年的独立数据集,还是在其他年份都是稳健可靠的。最后,以数据挖掘选股为基础,建立了投资组合,经过实证模拟,确认可以得到较高的绝对和超额的投资收益。因此本文认为,在投资领域应用数据挖掘是可行而且有效的。

  <国联基金><俞文冰>


    新浪声明:本版文章内容纯属作者个人观点,仅供投资者参考,并不构成投资建议。投资者据此操作,风险自担。

发表评论

爱问(iAsk.com)


评论】【谈股论金】【收藏此页】【股票时时看】【 】【多种方式看新闻】【打印】【关闭


新浪网财经纵横网友意见留言板 电话:010-82628888-5174   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996-2006 SINA Corporation, All Rights Reserved

新浪公司 版权所有