深度|泰康资产:资产管理投研数据湖建设方法与实务

深度|泰康资产:资产管理投研数据湖建设方法与实务
2024年09月25日 17:39 市场投研资讯

(来源:泰康资产)

2023IAMAC年度课题

资产管理投研数据湖建设方法与实务(一)

课题单位:泰康资产管理有限责任公司

课题负责人:迟哲

课题组成员:任桂军、张曈、胡培铭、倪峰、金箫、张亚男、王宁、何立汉

本文从资管行业现状及新形势下的投研能力要求出发,论述了数字化转型的当下,研究资产管理投研数据湖建设的必要性。本课题基于保险资管领域投研特征并结合国内外行业最佳实践经验,总结出最符合自身发展的投研数字化创新模式及投研数据湖四大核心体系:数据体系——构建多层次的数据架构,汇聚海量投研数据,统一数据标准;技术体系——构建高性能数据平台,实现一站式数据存储、计算、服务和治理综合性解决方案,支持实时分析和多维分析;产品体系——打造灵活多变智能化的数据分析工具,实现投研线上化工作闭环;运营体系——建立全面的投研数据质量管理规范,提高数据质量,提升数据价值。通过资产管理投研数据湖的建设,以投研数据、模型、洞察引擎三位一体为目标,打造国内外行业领先的投研数据能力,能够提升资产管理公司的核心竞争力,从而推动行业的高质量发展。

关键词:投研 数字化 数据湖

第一章 研究背景及意义

本章首先以全球资管行业的现状引出本课题的研究背景,分析新形势下保险资管领域的投研现状及挑战,最后概述了适应时代要求的资产管理投研数据湖的研究意义和主要研究思路。

第一节 研究背

一、全球资管行业现状分析

在2012-2021的十年间,全球资管行业呈现良好发展态势。截至2021年底,全球资产管理规模达125万亿美元,行业收入达5260亿美元,分别为2012年的2.2倍和2.1倍,两大指标均实现了9%的年均增长。进入2022年后,受到经济增速放缓和市场波动的影响,全球资管行业预计将出现超过14万亿美元的规模下降[1]。短期市场波动并未影响到中长期结构性趋势的深化,包括主动管理业务承压、ETF业务迅猛发展、另类投资业务加速、可持续转型升级、组合型解决方案不断壮大等。为应对行业变局、抓住中长期结构化机会,全球领先资管公司一方面通过加强防御型策略和另类投资能力建设,不断创新销售及渠道模式,另一方面更加关注数智化创新,用以抓住科技规模化赋能资管业务的机遇。

聚焦中国市场,自2018年资管新规推出以来,中国资管行业历经锤炼,积极推动转型。作为全球第二大资管市场,截至2022年底,中国资产管理行业规模超过人民币130万亿元,并在行业专业性、普惠性、多元化、国际化、社会影响力等方面取得了突出成就,为行业迈入良性、可持续的增长轨道奠定了良好基础。

2022年以来,全球经济的波动和行业内外部环境的变化,对国内资管机构的高质量发展提出了更高的要求。中国资管机构需要从投研能力建设、科技赋能等多方面推动自身商业模式升级和核心能力建设,提高竞争力以应对未来不确定的市场环境变化。

二、新形势下保险资管机构的投研能力要求

自2003年保险资金运用监管部和第一家保险资产管理公司成立以来,我国保险资产管理行业已走过21年的发展历程。保险资管机构是我国最主要的长期资金管理者,在保险资金和养老金投资管理市场中占据重要地位。相较于公募基金、银行理财等机构,保险资管机构管理的长期资金来源相对稳定,更多关注长期绝对收益回报。与此同时,保险资管机构也面临来自委托人的中短期收益要求和同业竞争压力,需要控制短期收益波动,并努力战胜市场。在此背景下,保险资管机构在长期的投资实践过程中,逐步形成了“兼顾短期与长期、平衡相对与绝对”的均衡投资风格。“获取持续、稳健的投资收益”无疑已成为保险资管机构的鲜明特色,也是保险资管机构投资能力建设的核心目标。这一投资能力建设目标包含两层含义:一是发挥长期资金独特优势,以价值投资为本、立足长远;二是关注短期收益的稳定性和竞争力,捕捉市场波动机会、规避重大市场风险。

此外,随着第三方业务的不断发展,保险资管机构管理的资金来源日益丰富、多元。中国保险资产管理业协会调研显示,2021年末保险资产管理公司受托管理的第三方保险资金和银行资金规模分别达到1.59万亿元和1.42万亿元。发展第三方业务、积极参与资管行业竞争,对于保险资管机构提升投资能力具有重要意义。因此,投资能力的建设还需结合自身发展定位与业务发展战略,力求满足公司核心客群的投资管理诉求,在均衡投资风格基础上,逐步发展多元策略化投资能力作为补充。

三、投研数字化难点与挑战

新形势下,保险资管行业面对日益激烈的市场竞争、投资难度增大、风险管理压力增大等问题,亟需通过有效手段提升自身投资能力,打造适应时代要求的投资研究体系,促进保险资管机构高质量发展。数字化转型在这一背景下应运而生,数字化赋能投研体系建设大有作为,在提高投研效率、创新产品、降低风险、提高客户体验等方面均可发挥重要作用。但投研数字化实施过程中面临不少难点与挑战,主要包括以下两方面。

(一)适配复杂多变的投研场景

保险资管领域的投研场景复杂,对投研能力的要求更高,需要借助数字化建设在提升投资效率和投资管理半径方面发挥重要作用。随着内外部格局的变化,想要获得更强更可持续的竞争能力,需要进行更加深入、细致的精细化研究,从精英人才驱动向体系化规模化方向发展。我们通过行业调研,与多名研究员及投资经理访谈交流,深入了解他们的工作流程,挖掘收集工作痛点,总结出投研人员亟需解决的四项问题。

1. 投研场景复杂各异

在投研领域,不同垂直线条(如权益、固收、宏观、金工、基金等)的研究内容和框架体系之间存在较大差异。这主要是由于不同垂直线条所关注的市场、投资类型和数据特征等因素不同,导致研究方法和指标的选择有所差异。这种情况造成了在数字化创新方面的挑战,需要尽可能提炼一套能够适配大多数投研场景的创新模式。

2. 信息收集和处理效率低

一方面,投研过程通常依赖于大量数据的输入,这些投研数据来源广泛,但格式、结构和命名方式多种多样,缺乏统一的标准,并且其中存在大量的线下数据,且获取渠道单一。这导致研究员在数据获取阶段需要花费大量时间和精力来解析和整理这些非标准化数据,增加了信息收集的复杂性和工作量。同时,有限的获取渠道也限制了数据的广度和深度,进一步降低了信息的全面性和准确性。另一方面,许多研究员在分析数据时仍然过度依赖传统的工具,如Excel,导致针对大数量的数据研究及复杂建模场景无法有效支撑。

3. 缺乏研究成果沉淀

过去投资研究高度依赖个人能力,并成为区隔其他公司的研究壁垒,但随着人员流动,核心研究成果和框架很可能随之流失。因此,急需系统化知识沉淀,帮助公司持续积累高价值的投研专家知识,并形成有效传承,形成公司内部的核心知识资产。

4. 研究成果共享成本高

研究人员之间以及研究员与投资经理之间的交流只能依赖电话、邮件、微信等方式点对点线下文件传递研究成果,不仅沟通协作成本高且研究成果无法随时更新及复用。

(二)海量投研数据获取及处理

数据已成为企业新的生产要素,数据与其他要素一起融入经济价值创造过程之中,对生产力发展具有广泛影响。投研业务的开展依赖于广泛的市场数据,数据来源广泛且数据类型多样。为实现海量投研数据的汇聚,需要构建一站式多源异构数据采集、存储、服务和治理综合性解决方案,涵盖从数据需求→数据采集→数据解析→数据存储→数据计算→数据服务各环节的处理,以及统一数据建模、管理及治理的标准化规范的制定与执行。

在完成数据积累之后,另一大难点在于从海量数据中识别特定实体,抽取关键信息。在过去,这样的工作通常靠研究员自己独立零散完成,耗时耗力且不能形成企业的能力沉淀,不具有大规模铺开的可行性。但目前,这一任务可以借助自然语义识别技术实现。过程中需要依托数据层完善的数据样本、中台层NLP模型的不断训练,以及应用层的持续反馈,通过一个良性数据闭环,充分发挥企业大数据的价值。

同时,各类实时金融数据呈现爆炸式增长,投研人员对数据的时效性要求也越来越高。因此,对于投研数字化的技术要求不仅仅要解决数据的采集汇聚、数据的存储计算,还应充分利用大数据技术,完成整个业务流程的数据串联,并统一离线数据和实时数据工作流,支持计算能力动态扩展。

第二节 研究意义及思路

一、研究意义

为助力打造适配新形势下资产管理领域的投研能力,进一步推动数字化转型,本课题基于行业特征研究构建一套行之有效的资产管理投研数据湖建设方案,旨在打造国内外行业领先的投研数据能力,提升保险资管公司的核心竞争力,从而推动行业的高质量发展。本课题的研究意义如下:

(一)打造投研数据引擎,推动投研数据标准化

通过建立完善的数据体系,统一数据口径、丰富数据内容、汇聚海量投研数据、提高数据质量,从而解决多源异构数据的采集处理难题。同时落地高性能实时数仓,融合流式和离线两种数据处理技术,满足研究数据时效性的要求,并使用统一的开发、管理模式,实现大数据计算处理能力的突破。

(二)构建投研产品体系,助力提升研究效率

打造一站式的研究工作场景,为投研人员提供高质量、便捷灵活的数据分析工具,帮助投研人员解决前期信息汇聚及数据处理难、工具效率低等问题,使其能专注于核心价值贡献环节,大幅提升投研人员的“单兵”作战效率。同时,尽可能适配权益、固收、金工等各垂直线条投研人员的分析场景,提升规模化水平,进一步提高投研分析效率。

(三)打造投研知识库,助力投研体系升级

实现投研数字化模式创新,通过组件化技术支持研究员自主组装投资研究所需的数据、指标、图表、观点,实现与投资团队之间、研究团队内部的高效分析与互动,并逐步积累沉淀内外部投研领域专家的研究框架及研究成果,形成公司内部的核心知识资产。同时,鼓励研究员基于行业最佳实践,自主研发新的投研模型,更好地支持投研决策与研究框架的迭代升级,助力行业的高质量发展。

二、研究思路

本课题以打造资产管理投研数据湖为目标,采用行业对标与内部场景实战相结合的方式,以业务发展需求为切入点,结合国内外行业先进经验,探索出一套对大型资产管理机构尽可能普适的实务建议。

本课题研究内容共分为如下五个部分进行总结介绍:

第一章:研究背景及意义。本章对本课题的研究背景、研究意义以及研究思路和文章结构进行简要介绍。

第二章:国内外行业先进经验。本章对国内外先进资管机构投研数字化特征及先进案例进行总结介绍。

第三章:投研数据湖的建设体系。本章简要介绍了投研数据湖的建设目标及建设体系,由此引出第四章对四大体系建设内容的详细介绍。

第四章:投研数据湖的建设实践。本章详细介绍了投研数据湖建设的四大体系:数据体系、技术体系、产品体系及运营体系的关键内容。

第五章:未来展望。本章介绍了投研数据湖建设后续的发展方向及未来展望。

第二章 国内外行业先进经验

第一节 海外先进资管机构的投研数字化特征

海外资管行业的数字化转型起步早、发展快。众多国际领先的投行、资管机构将数字化转型作为企业创新发展的发力点与核心战略,将科技能力视为公司的基础能力与核心竞争壁垒。海外先进资管机构的投研数字化建设普遍具备以下特征:

一、数据基础强大

海外头部金融机构普遍建设了完备的信息科技基础设施,为数据、运营、交易执行等业务提供研究分析、投资决策、风险控制等全面的科技能力支持。普遍数据源丰富(10000+)、数据规模大(几百PB)、历史数据回溯时间长(100年以上),硬件设施规模强大(20万-70万核,2000-5000TB内存)[2,3],并且具备统一的数据架构,支持实现全球主数据、私募产品数据、客户数据等非标准数据的标准化管理,通过在岸和离岸的数据中心,实现全球范围内数据的共治、共建与共享。

二、模化数据应用能力完善

海外头部金融机构数据应用场景丰富,支持各类复杂计算场景,如数十万场景的风险模拟等,并且产品化程度高,具备专业的数据分析能力,应用数值模型、自然语言处理、强化学习、大语言模型等先进的大数据与人工智能算法,通过应用平台、数据接口服务等多种方式,为投研、客户、产品、风控等业务团队提供专业高效的服务,推动公司数字化能力逐渐向数字化生态的模式转变。随着数字化能力建设的深入,以及大数据与人工智能等新技术的应用,海外头部机构在投研效率及客户洞察等方面取得了明显提升。

三、数据人才储备丰富

为了更好地构建投研数字化能力,海外头部资管机构均投入了大量资源来组建专业的数据团队和数据科学团队。科技数据人才在公司占比高、学历高且研发经验丰富,是支持海外头部资管机构投研数字化建设的重要基础保障。

第二节 海外资管机构投研数字化先进案例

一、Goldman Sachs SecDB

数字化能力长期以来都是高盛的制胜法宝之一,高盛对技术的重视从其将自身比作“华尔街的谷歌”就可见一斑。虽然在数据、算力、应用场景等各个方面,高盛都已有30多年的持续积累,但其科技相关投入依然持续增长。从2018年开始,高盛每年在科技方面的投入达到10亿美元以上,科技支出占全部营业支出的比例也保持在4%以上。年报显示,高盛在2022年的科技支出高达18.08亿美元,占全部营业支出的5.8%[4]

高盛自研的SecDB是其内部最核心的系统之一。SecDB从20世纪90年代开始研发,使用高盛自创的Slang语言,具有高性能的并发读写特征,和面向对象的可扩展性,同时支持分布式结构部署。SecDB存储的数据包括交易数据、市场行情、新闻事件、GPS、卫星图像、邮件、音频、社交互动数据等,在2016年就已积累了超过13PB的数据[2,3]。计算性能方面,截至2018年,SecDB拥有超过20万个计算节点,全天执行750万亿条指令,每日处理数据量达50TB,支持230亿条价格和50万个市场场景的模拟计算[5,6]

高盛的投研数字化能力覆盖投前-投中-投后整个周期,实现投资过程的全流程赋能。强大的风控能力一直是高盛的核心竞争优势之一,市场普遍认为这是高盛在2008年能够避免重大损失的重要原因,而风控能力的建设离不开高盛强大的数据分析能力。高盛利用蒙特卡洛算法来模拟数十万种情景下,数百亿个资产的价格变动情况,即便是概率很小的事件也考虑在内,这些模拟的结果被用于描述资产配置的风险情况,作为风险评估的重要依据[5]。在投研辅助方面,高盛还应用多种AI算法处理另类数据,来进一步挖掘数据中新的Alpha来源。高盛公开的例子包括使用混凝土公司采石场的位置,来估计不同公司在某地的市场份额,再结合当地的人口等经济数据综合评估,来辅助分析不同混凝土公司各自主要的竞争市场、主要的利润区域、并购对市场位置的影响等关键问题[6]

二、TWO SIGMA

Two Sigma Investment成立于2001年,被称为新晋的“量化基金王者”,从成立之日起就非常强调对技术和数据科学的应用。Two Sigma的科技基因深刻反映在其员工身上:约60%的员工没有金融背景,2/3的员工属于研发部门,超过1/3的员工具有硕士及以上学位[7],所有员工累计拥有超过4800年的研发经验。在短短二十年左右的时间中,Two Sigma的管理规模已经成长到600亿美元,成为全球管理规模最大的量化对冲基金之一,充分体现出其投资和研究方式的优势。

为了支持自身的数据分析需求,Two Sigma建立了强大的数据基座,其接入的数据源超过1万家,包括宏观、行业、事件新闻和地理数据等,包含了大量的另类数据源。截至2023年10月,Two Sigma数据库中存储的数据累计已经超过300PB,并继续以极快的速度在增加。为了处理如此海量的数据,Two Sigma搭建了超过7200台服务器、具有77万虚拟处理器(vCPU)和5000TB内存的服务器集群,峰值每秒可以执行超5万次查询,单节点的数据吞吐量达到1.85GB/s[2,3]

Two Sigma建立起包括数值模型、图算法、自然语言处理、强化学习等算法的全面AI算法能力,并将其应用在投研过程的各个方面。Two Sigma利用AI模型从数十个维度来分析和刻画市场场景,通过与历史场景的对比,结合相似历史情景的演化,可以给出当前场景的分析和未来预测。Two Sigma还构建了非常丰富的因子库,并开发了相应的分析平台Two Sigma Factor Lens。该平台可以通过分解持仓的风险和收益驱动因子,从风险、收益、相关性几个方面对资产配置进行全面刻画,并提供优化建议。优秀的数据技术能力使Two Sigma在资金规模迅速增长的背景下,一度神奇地保持了稳定的高回报率,投资者持续涌入的热情,也更加证明了市场对计算机技术和大数据在金融交易中的应用前景的认可。

第三节 国内资管机构投研数字化现状

国内资管机构的投研数字化水平相比海外先进公司还有一定差距。许多金融机构早期进行了IT系统建设,但过程中往往缺乏全面的数据和技术框架规划,并大量依赖外购产品。这种模式在数据方面导致大量数据孤岛和数据质量不高的问题,核心业务数据缺乏统一的数据标准和口径管理,无法实现快速有效的数据汇集,难以在不同业务条线之间构建高效的综合数据应用。在应用层面,由于不同系统的技术流程不统一,缺乏全局视角的管理整合,导致不同系统之间难以衔接和优化,反而加重了用户负担。随着国内经济的蓬勃发展,市场规模的不断扩大,以及人们对财富保值增值需求的不断增强,资本市场参与者的数字化水平面临更新更高的要求。新形势下,国内金融行业数字化转型进一步提速,众多头部机构也将数字化转型上升到战略层面。具体执行层面,头部机构不断加强相关科技团队的建设,提高自主研发能力,强调数据治理和应用平台化,深入梳理和解决数据与系统中的历史遗留问题。经过几年的发展,国内领先资管机构已经初步实现了公司级别的统一系统平台,在投资管理、产品管理与客户管理全流程中实现端到端的科技赋能。

参考文献

[1] 麦肯锡,应对当下面向未来:中国资产管理高质量发展制胜之道,2023

[2] Two sigma官网,insights数据科学部分,2021。 [https://www.twosigma.com/topic/data-science/]

[3] Two sigma官网,insights工程技术部分,2021。 [https://www.twosigma.com/topic/engineering/]

[4] The Goldman Sachs Group, Inc. Form 10-K for the fiscal year ended December 31,2022. GS-12.31.2022-10K (goldmansachs.com)

[5] R. Martin Chavez在哈佛的演讲:Data, Dollars, and Algorithms: The Computational Economy,2017.

[6] CFA, AI Pioneers in Investment Management,2019.09.30.

[7] Two sigma官网,2021。 [https://www.twosigma.com/]

转自:中国保险资产管理

未完待续,敬请期待

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 10-08 托普云农 301556 --
  • 09-30 上大股份 301522 --
  • 09-25 强邦新材 001279 9.68
  • 09-19 长联科技 301618 21.12
  • 09-18 铜冠矿建 920019 4.33
  • 新浪首页 语音播报 相关新闻 返回顶部