面向投资的大数据和机器学习方法(二)

面向投资的大数据和机器学习方法(二)
2019年12月20日 09:24 东证衍生品研究院

大数据的分类

投资管理大数据转型的核心:能够提供信息优势的新数据源。数据所带来的好处,可以表现为发现传统来源中不包含的新信息,或者在更早的时间,发现相同的信息。例如,矿山或农业用地的卫星图像,可以在新闻或官方报告广泛报道之前,就显示出供应的变化。

在这一部分,我们的目标是提供一个大数据的框架或分类。首先,我们根据数据生成的方式,对数据进行分类。然后我们考虑与专业投资者直接相关的数据集,例如:将数据映射到不同的资产类别或者投资风格,包括Alpha因子,质量因子,技术因子等。

按数据源分类

1、个人生成(如社交媒体帖子或移动端数据交换记录)

2、业务流程生成(如电子商务或信用卡交易数据)

3、传感器生成(如卫星图像、雷达等)

下图显示了这种分类。这一方法扩展了Kitchin和联合国报告(2015)在非金融领域的早期尝试。虽然这种分类有点理论化,但是在分析这三个类型的数据时,确实存在共同的特征、共同方法和共同挑战。例如,个人生成的数据通常是非结构化文本格式的,通常需要自然语言处理。传感器生成的数据往往是非结构化的,如信用卡交易和公司“废弃”数据,都面临共同的法律和隐私问题。

图1  大数据源的分类

1、个人生成的数据。这些数据大多通过文本媒介记录,通常是非结构化的,并且分布在多个平台上。可以进一步分类为:(1)社交媒体的数据(网站如Twitter,Facebook,LinkedIn,等等);(2)专业网站如企业评论网站如Yelp,电子商务Amazon,移动应用分析App Annie;(3)网络搜索和个性化数据,如谷歌的搜索趋势、个人收件箱数据等。是指企业和公共实体产生或收集的数据。

2、业务流程生成的数据。是指企业和公共实体产生或收集的数据。一个重要的子类别是交易记录,如信用卡数据,企业的银行记录,超市扫描器的数据,供应链的数据等。由业务流程生成的数据往往是高度结构化的,因而可以作为一项领先指标度量,这往往是低频率的公开数据。生成的数据可以来自公共机构,其中美国政府过去几年在网上提供大型的联邦政府数据就是一个例子。

3、传感器产生的数据。通过嵌入各种设备(连接到计算机、无线和网络技术)的传感器收集数据。生成的数据通常是非结构化的,其大小通常比人工流程生成的数据量大得多。最著名的例子是可以用来监测经济活动(建筑、航运、商品生产等)的卫星成像、可以用来追踪行人在零售店(智能手机数据)的地理定位数据,以及船舶在港数据等等。其他传感器的例子包括固定在一个位置的摄像头监控天气和污染等等。考虑到未来新一代通讯技术的商业落地,将微处理器和网络技术嵌入到大量个人或商业电子设备的做法将会越来越普及(物联网概念)。

描述性分类

在根据个人、业务流程或传感器产生的数据进行分类之后,我们提供了另一种描述性分类,投资专业人士对这种分类会更感兴趣。例如,零售部门的投资组合经理将关心商店特定的销售数据,而不管这些数据是否由停车场的卫星图像、自愿提供的客户地理位置数据还是客户收件箱中的电子收据创建的。高频量化交易者会关注所有能在日内交易中产生的信号,如推文、新闻稿等,但不会太关注那些延迟较大、受关注程度较低的信用卡数据。在下图“投资分类”中,我们为各大数据集标示了不同属性。这些属性和专业投资人士 、CIO 、量化投资组合经理、交易员高度相关。

大数据的投资属性

1、资产类别。大多数大数据仍聚焦于股票和大宗商品。有关利率和货币的另类数据相对较少,这使得此类数据集对投资者更具价值。

图2  大数据集的属性

2、投资风格。大多数数据是特定于行业和股票的,与股票多头和空头投资者相关。还有大量与宏观投资者相关的数据(如消费信贷、中国经济活动、航运数据等)。某些大数据可以用来替代传统的市场风险度量,而一些信号仅适用于高频量化交易。

3、数据潜在的Alpha属性。Alpha必须在购买和实现数据集的成本下进行分析。大数据集的成本差异很大——感情分析可能需要几十万美元或几千美元,而全面的信用卡数据每年可能需要几百万美元。通过对这些大数据进行测试,我们可以发现一个数据集是否有足够的Alpha值,尽管在大多数情况下,单独的数据集成为一个独立可行的投资策略来说可能性不大,但是这些数据集仍然非常具有价值,因为这些信号可以与其他信号组合在一起,从而产生一个可行的投资组合级别策略。投资者遇到没有alpha的大数据集也不应感到惊讶。除了alpha,还需评估该数据集中包含的信息的正交性(它是数据集独有的,还是已经被其他数据捕获的),以及该数据集的策略潜在资金容量。下图显示了数据集“alpha评估”的潜在结果。

图3  大数据集的信息内容

4、数据集的知名度。一个数据集知名度越高,就越不可能形成夏普比率高的独立策略。众所周知的公共数据集,如财务比率(PE\PB等)可能有相当低的alpha,并不能作为一个独立的策略(尽管他们可能仍然用于多元化风险溢价组合)。大多数大数据集将不太为人所知,新的数据集将频繁出现。为了评估数据集的已知程度,管理人员可以询问数据提供者关于现有客户端的信息。较早的客户可以影响数据手机范围的处理,从而影响后续客户。最初的客户有时可以要求独家或有限的销售协议,通过这些协议,供应商承诺只向预先定义的客户销售产品。

5、原始数据的处理。基本面投资者更喜欢经过处理的信号和见解,而不是大量的原始数据。数据处理的最终形式会以研究报告、预警报告或交易想法的形式呈现。大多数大数据集都是半处理的数据,其中仍然有一些离群值和缺失值,不能作为交易模型的输入。它的alpha是否能在交易中实现还需要考虑季节性、异常值等因素,否则,对于大多数投资者来说,原始数据可能用处不大。

6、可获得历史数据跨度及缺失值估计方法。历史较长的数据往往更适合用于测试(卫星图像通常为>3年,情绪数据>5年,信用卡数据>7年;相反,历史时间跨度较短的数据集通常意义不大)。缺失值或异常值是一个重要的考虑因素。如果数据已经回填,必须提到缺失值的估计方法。数据是随机缺失或按一定规律丢失,则必须将它补全。考虑这样一种情况:我们希望跟踪不同位置的石油存储库存时间序列。缺失数据可分为:(1)完全随机缺失(MCAR):缺失值与存储或位置的实际值无关;(2)随机缺失(MAR):某些位置经常会丢失存储报告,但它们缺失的原因并不与该位置存储的实际数据相关。需要采用透明的方法来评估样本是否代表全部人口,以及如何根据 (如信用卡区域和人口统计偏差、卫星数据根据天气影响)等数据进行校正。大数据没有标准化的格式;此外抽样方法和对数据集的理解也经常发生变化。因此,数据提供者应该为客户机提供一个健壮的支持结构。

7、数据发布频率。数据频率:可以是日内、每日、每周,甚至更低的频率。延迟:数据提供者通常批量提供数据,由于收集、操作或法律限制等原因会出现延迟。格式:数据必须以合适的格式提取,对于静态数据,最好是CSV或JSON格式。API(应用程序编程接口)应该是健壮的它不应该出现调用失败或导致额外的延迟,而且它应该是灵活的,以适应不同的编程语言。如果数据提供者使用数据集进行交易,则可能存在潜在的利益冲突。

本章总结

本章分别从数据来源和投资者角度介绍了大数据的分类,并逐一阐述了大数据集的投资属性,下一节我们将介绍机器学习的具体分类。

大数据 机器学习

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 01-02 和远气体 002971 10.82
  • 12-25 八亿时空 688181 --
  • 12-25 侨银环保 002973 --
  • 12-24 兴图新科 688081 --
  • 12-19 铂科新材 300811 26.22
  • 股市直播

    • 图文直播间
    • 视频直播间