如何理解金融数据的复杂性

如何理解金融数据的复杂性
2024年04月24日 02:15 上海证券报

  金融数据有低信噪比的特点,提取有效信号的难度较大,模型如果调整不够得当,就容易学习“噪音”。由于这一特性,量化投资在模型开发和调校时尤其强调避免过拟合。另外,证券交易数据等时间序列有时序性(时间不可倒流),且金融市场时刻存在博弈,规律具有时变特性。量化投资方法论的目的是用历史数据预测未来,所以一定要避免未来信息的引入,并合理评估历史回测。

  若按照数据格式对金融数据进行分类,可分为标准化数据和非标准化数据。标准化数据常见比如交易所原始数据、原始行情等;非标准化数据以文本数据为主,包括财经新闻、财经论坛问答、卖方分析师投资报告、第三方机构提供的特殊数据等,相比标准化数据更复杂。为应用于量化策略开发,必须先进行数据清洗等结构化处理。

  若按照数据来源对金融数据进行分类,可分为价量数据、基本面数据、事件驱动数据和另类数据。

  价量数据包括一切能从市场交易行为中提取的信息,不局限于股票及其他资产的价格,以及衍生的各项技术类指标,如日间量价数据(日K)、日内量价数据(分时数据)、逐笔数据(股票的每笔成交和挂单数据)。

  基本面数据既包括宏观基本面、产业链上下游发展、行业发展趋势,也包括上市公司的财务报表等数据。

  在金融领域,“事件”通常指“可能在短期导致投资者预期发生变化、对公司的基本面或其股票价格产生重大影响的情况”。“事件驱动”指通过预测市场对特定事件的反应不足或过度反应,判断股票价格变化以获取超额回报,如股票回购和股东增持、市场过度炒作。

  另类数据是相对的概念,目前来看,包括所有非传统来源的新型数据,如ESG数据、社交媒体评论、卫星图像等,在海外已拥有较为成熟的应用。

  一般而言,数据点及结构化数据越多,越有利于量化投资进行建模。如果某个大事件历史上没有发生过或仅发生过几次,基于过往总结出的“规律”在这个阶段不一定有效,也很难找到合适的数据来训练,进而影响置信度。

股市回暖,抄底炒股先开户!智能定投、条件单、个股雷达……送给你>>
海量资讯、精准解读,尽在新浪财经APP

责任编辑:张文

历史

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 04-25 欧莱新材 688530 9.6
  • 04-01 宏鑫科技 301539 10.64
  • 03-29 灿芯股份 688691 19.86
  • 03-27 无锡鼎邦 872931 6.2
  • 03-25 中瑞股份 301587 21.73
  • 新浪首页 语音播报 相关新闻 返回顶部