【国信金工】基于主动买卖特征的高频订单因子改进

【国信金工】基于主动买卖特征的高频订单因子改进
2024年08月20日 08:06 市场投研资讯

一、高频订单主动买卖特征蕴含的Alpha信息

  • 考察高频订单的几个维度:在过往研究中,我们从订单大小、成交时长、成交时间、出价高低等多个维度对高频订单数据蕴含的Alpha信息进行了考察。本文我们聚焦订单特征的另一个重要维度——主动买卖特征。

  • 主动买卖特征:每一笔交易都是由其背后的投资者交易而成,而每笔交易往往带有着强烈的交易倾向。促成买卖双方成交的一笔订单究竟是由买方主动促成,还是由卖方主动促成?不同订单主动成交方向对股价未来的影响方向是否存在显著的差异?这些问题都在引领着我们对每笔成交的主动买卖特征进行划分,探析促成每笔成交的买卖倾向给因子有效性带来的差异。

二、主动买卖特征划分方法梳理及比较

  • 当前学术界和业界中,基于逐笔数据进行主动买卖特征划分的方法主要有基于委托时间(Time Based)和基于成交价格(Price Based)两类。

  • 二者在某些特殊情形下的主动买卖特征划分均存在值得商榷的地方,因此本文提出一种结合成交价格及委托时间的主动买卖特征划分法。

  • 引入主动买卖特征对构成大单交易占比因子的子因子进行拆分,均有良好的区分效果,能够分离出选股能力更强、稳定性更好的指标。

三、引入主动买卖特征的改进大单因子

  • 因子表现:引入主动买卖特征的改进大单因子月度RankIC均值9.09%,年化RankICIR为4.27,月胜率89.01%。多头月均超额0.84%,空头月均超额-1.73%。

四、引入主动买卖特征的成交量占比因子统一框架

  • 成交量占比因子统一框架:我们根据委托单的“大单属性”将订单分为大单、非大单两类,根据委托单的“漫长属性”将订单分为漫长订单和非漫长订单两类,根据订单的“主动买卖特征属性”将一笔成交划分为主买和主卖两类,对订单类型进行划分。

  • 精选复合因子:我们提出一种基于因子有效性的“迭代分裂法”,基于订单大小、成交时长及主动买卖特征筛选有效维度构建精选复合因子。具体来讲,若引入主动买卖特征后因子有效性区分明显,则保留子因子;否则,沿用父因子,构建复合精选因子。

  • 精选复合因子表现:月频调仓下精选复合因子月度RankIC均值为8.93%,年化RankICIR为5.21,月胜率93.41%。多头月均超额0.99%,空头月均超额-1.56%。周频调仓下精选复合因子的周度RankIC均值为5.59%,年化RankICIR为6.85,周胜率83.72%,在不同的宽基指数及风格股票池中均展现出较强的选股效果。

  • 因子特征:精选复合因子更倾向于低估值、大市值、低波动、低换手股票。在剥离掉传统选股因子后,纯净因子仍展现出稳健的选股能力。

近年来,市场对量价数据的探索在颗粒度上不断深入,从最开始的日度行情数据到分钟级、秒级别数据再到逐笔成交数据,数据频率的提升帮助研究者们捕捉到股票更多量与价的细节。如果将市场比作深海,那么订单数据像是推动潮涨潮落周期变化的海水,而行情数据则更像是随着海浪潮汐高低涌动的帆船。股价行情的波动是由投资者交易出来的结果,探寻每个投资者下单背后的逻辑及其信息优势,对了解股价背后的资金博弈程度及未来可能的走势具有极强的指导意义。

在逐笔成交数据中,我们可以根据不同的特征属性将每一笔成交记录划分为不同类型,不同类型的成交记录代表着不同类型投资者博弈之后的结果,其对股票未来预期收益的影响可能存在显著的区别。在国信金工团队2024年1月8日发布的专题研究报告《高频订单成交数据蕴含的Alpha信息》中,我们以逐笔成交数据为研究对象,从订单大小、成交时长、成交时间、出价高低等多个特征对高频订单成交数据蕴含的Alpha信息进行了深入探索,并提出一套基于成交类型的成交量占比因子构建的统一框架。

本文,我们继续考察订单特征的另一重要维度——主动买卖特征。我们对基于逐笔成交数据的主动买卖特征划分方法进行梳理,介绍多种划分方式及其在特定应用情景下的优势和不足。随后,我们提出一种“结合成交价格及委托时间的主动买卖特征划分法”,将该特征引入到统一框架并提出一种基于因子有效性的“迭代分裂法”筛选有效因子,最终结合订单大小、成交时长、主动买卖特征等多个特征构建精选复合因子。精选复合因子在全市场中月度RankIC均值达到8.93%,年化RankICIR达到5.21,月胜率93.41%,多头月均超额0.99%,空头月均超额-1.56%,在不同宽基指数及风格股票池中都展现出较好的选股效果。

1

深入高频:从订单数据到行情数据的演变

近年来,市场对量价数据的探索在颗粒度上不断深入,从最开始的日度行情数据到分钟级、秒级别数据再到逐笔成交数据,数据频率的提升帮助研究者们捕捉到股票更多量与价的细节,进而抽丝剥茧地了解股票行情数据形成背后的交易者结构特征及其交易意图。

图1展示了从订单数据到行情数据的演变,其中订单数据(由委买单和委卖单构成)作为行情数据的源头,代表着不同交易者对股票当前公允价值的看法;随后,委买单和委卖单参与成交,二者共同促成一笔交易,形成逐笔成交数据;最后,我们对同一个时间区间内的逐笔成交记录进行汇总,形成秒级、分钟级行情数据。

2

逐笔成交数据介绍

逐笔成交数据,作为颗粒度最细的数据,记录了集合竞价和连续竞价撮合成功的每一笔成交记录,是一切行情数据产生的源头。逐笔成交数据主要记录了每笔成交的数量、价格、时间信息以及本次成交涉及的买卖双方的订单数量、价格信息。如表1所示,本文使用的逐笔成交数据主要包含以下12个条目,其中对于同一只股票而言,其交易流水号是每一笔成交记录的唯一标识,因此所有交易流水号不重复。

表2以贵州茅台(600519.SH)在2023年10月31日的几笔交易数据为例,对逐笔数据的定义进行阐述。为了便于后文对相关概念的理解,我们进行如下定义:

  • 一笔成交:是指由买卖双方共同撮合的一笔交易记录;

  • 一笔订单:同一个委买ID(或委卖ID)表示相同的一笔买单(或卖单)。同一笔订单仅代表同一个投资者在同一时间下达的订单,若同一个投资者在不同时间下达多笔订单,则会采用不同的委托ID进行表示。

由于连续竞价阶段的订单成交遵循“价格优先、时间优先”规则,因此随着盘口价格的不断变化,同一笔订单可能会跟多个对手方进行交易、同一笔订单分成多笔成交才完成交易的情况。

在表2中,红色方框标出的第一行、第二行和第六行记录了委买ID为11714165(总委买量为1000股)的买入订单成交情况——在先后成交了200股和100股之后,股价上涨至高于该笔订单委买价的价格,此时其他委买价格更高的订单具有更高的成交优先级。直至14:53:45时刻股价回落至该笔订单委买价,才将剩余的700股成交完成。在该案例中,委买ID为11714165的订单为“一笔订单”,交易流水号为15261、15267和15306的成交记录为三笔成交。

从委卖ID为11743118(总委卖量为1100股)的卖出订单视角来看,由于其委卖量较大,因此最终分成5次完成交易,每次交易的对手方都截然不同,表2中的后5行即对应其成交记录。

3

逐笔成交记录的特征属性与成交类型

在逐笔成交数据中,每一笔成交记录都是由买卖双方共同促成的结果,由于参与交易的双方往往具备不同的特征属性,因此每笔成交记录可以划分成不同类型。在后文中,我们将对逐笔成交数据中的特征属性及成交类型等概念多次提及,因此为了便于后文理解,我们对这两个重点概念进行如下定义:

  • 特征属性:是指逐笔成交数据中委托订单或成交记录满足的某种条件特质。例如,国信金工前期专题研究报告《高频订单成交数据蕴含的Alpha信息》中提到的订单大小、成交时长等均属于一笔委托订单的特征属性,本文中将介绍的主动买卖特征属于一笔成交记录的特征属性。一般来说,订单的特征属性能够对股票未来的预期收益产生一定的预测区分效果。

  • 成交类型:是指促成一笔成交记录的买卖双方具有的不同特征属性构成的集合。例如,一笔大买单和一笔大卖单撮合的成交记录被划分为“大买&大卖”类型,一笔漫长买单和一笔非漫长卖单撮合的成交记录会被划分为“漫长买&非漫长卖”类型。此外,特征属性之间可以互相交叉,例如一笔买单可以同时为“大单”和“漫长订单”,一笔卖单可以同时为“非大单”和“非漫长订单”,由这两个委买单和委卖单促成的成交记录即可被划分为“大买&非大卖&漫长买&非漫长卖”类型。

我们以“订单大小”特征为例对逐笔成交数据中的“特征属性”和“成交类型”进行进一步阐述,表3展示了贵州茅台在2023年10月31日的几笔成交记录。我们根据委买单(委卖单)的实际成交量大小将其划分为大买单和非大买单(大卖单和非大卖单)。

在该案例中,第一行(交易流水号为15261)成交记录中委买单的委买量有1000股,根据规则(具体判断方式后续有详细介绍)被划分为大买单;该笔成交中委卖单的委卖量为200股,根据规则被划分为非大卖单。因此,第一笔成交记录的成交类型即可被划分为“大买&非大卖”。

类似地,在基于“订单大小”特征对委买单和委卖单进行划分后,一笔成交记录即可划分为“大买&大卖”、 “非大买&大卖”、“大买&非大卖”和“非大买&非大卖”4种不同的类型。

4

基于成交类型构建成交量占比因子

在逐笔成交数据中,我们可以根据不同的订单特征将每一笔成交记录划分为不同类型,不同类型的成交记录代表着不同类型投资者博弈之后的结果,因此不同类型的成交记录对个股未来预期收益的影响可能存在显著的区别。

本文,我们将从多个特征对成交记录进行划分,并将相同类型的成交记录的实际交易量进行加总,除以全天的成交量,构建成交量占比因子,具体方式如下:

其中,VolumeRatio_s表示类型为s的成交记录的交易量之和占全天交易量的比例,Volume_s表示类型为s的成交记录的交易量之和,VolumeAllDay表示全天交易量之和。为提升因子值的稳定性,在后续计算因子时我们将过去20天的平均值作为因子取值。

图2展示了某只股票基于成交类型构建成交量占比因子的示意图,在该案例中共有6笔成交记录,其中类型A成交记录共有3笔,类型B成交记录共有2笔,类型C成交记录共有1笔。我们首先按照同一类型成交记录的成交量进行加总,类型A共成交1000股,类型B共成交500股,类型C共成交100股。随后,我们将不同类型成交记录总和除以当日总成交量,并取过去20天均值,即可构建三个不同类型成交量占比因子。

5

高频订单成交数据考察维度

在国信金工团队2024年1月8日发布的专题研究报告《高频订单成交数据蕴含的Alpha信息》中,我们从订单大小、成交时长、成交时间和成交价格等维度对高频订单所蕴含的Alpha信息进行重点考察,其中基于订单大小构建的“大单交易占比因子”和基于成交时长构建的“漫长订单交易占比因子”在不同的样本空间中展现出优异的表现。

图3对高频订单成交数据的不同考察维度进行了总结,具体来讲:图3对高频订单成交数据的不同考察维度进行了总结,具体来讲:
  • 订单大小:根据订单的成交大小可以将其划分为超大单、大单、小单等,通常来讲大单交易者可能拥有更多的信息优势及筹码优势;

  • 成交时长:根据订单的成交速度或成交时长可以将其划分为漫长订单、非漫长订单等,通常来讲漫长订单交易者更可能是长线资金;

  • 成交时间:根据订单的成交时间可以将其划分为早盘订单、尾盘订单等,通常来讲早尾盘订单交易者可能拥有更多的信息优势;

  • 成交价格:根据订单的委托价格可以将其划分为高价单、低价单等,通常来讲订单的委托价格反映了投资者对于股价“公允价值”的投票结果。

本文,我们继续考察订单特征的另一重要维度——主动买卖特征。通常来讲,促成一笔成交的买卖双方按照其订单主动性可以被划分为主动委托单和被动委托单两类,主动委托单代表投资者有着更为积极的交易意向,其反映的信息对股价的后续走势可能有着更为持久的影响,因此如何对订单的主动买卖特征进行划分成为本文关注的焦点。

在国信金工团队2024年1月8日发布的专题研究报告《高频订单成交数据蕴含的Alpha信息》中,我们采用分位点的方式对逐笔成交数据中的大单进行划分。具体来讲,我们对每只股票每天的委买单和委卖单分别进行统计,首先将同一委买ID(或委卖ID)对应的实际成交量进行加总,随后将全部实际成交的委买ID(或委卖ID)成交量进行降序排列,最后取前10%分位点作为大单划分阈值(剔除开盘集合竞价的成交记录),将成交量大于前10%分位点的委买单(或委卖单)记为“大买单”(或“大卖单”)。

大单的判定可用如下公式表示:

其中,BigOrderFlag_i为订单是否为大单的标识,Volume_i为订单的实际成交量,quantile(Volume, 0.9)表示当日所有同类型订单实际成交量的前10%分位数。在判断委买单是否为大单时,我们仅在所有委买单中进行比较。在判断委卖单是否为大单时,我们仅在所有委卖单中进行比较。

由于每一笔订单均是由委买单和委卖单双方撮合交易得到的结果,因此我们可以根据委买单和委卖单是否为“大单”,将每一笔成交记录划分为如图4所示的4种成交类型,对“传统大单交易占比”因子进行拆解,公式如下:

可以看到,“传统大单交易占比”因子可以被拆解为三个子因子加总得到的结果:(1)委买单为大单、委卖单为非大单;(2)委买单为非大单、委卖单为大单;(3)委买单及委卖单均为大单。其中类型(3)订单的成交量在因子构建过程中被放大了1倍。

表4展示了拆解后的三个子因子在全市场中的回测表现,在后续的因子测试中,如无特别说明,我们均已进行了行业及市值中性化处理,回测区间为2016年12月30日至2024年7月31日。

可以看到三个因子对股价未来的影响方向并不完全相同,其中大买&非大卖和非大买&大卖因子的RankIC均值为负,而大买&大卖因子的RankIC均值为正。由前述分析可知,“传统大单交易占比”因子为如上三个因子简单加总之后的结果。但是这三个因子之间的方向并不相同,因此直接相加会导致复合因子的有效性出现削弱,我们需要对其方向进行调整。

由表4可知,构成“传统大单交易占比”因子的三个子因子中,大买&非大卖和非大买&大卖两个因子的大单类别并不相同(前者大单为委买单,后者大单为委卖单),但对于股价未来的影响方向却同为负向,背后的原因引起了我们的思考。

事实上,每一笔交易都是由其背后的投资者交易而成,而每笔交易往往带有着强烈的交易倾向。促成买卖双方成交的一笔订单究竟是由买方主动促成,还是由卖方主动促成?不同订单主动成交方向对股价未来的影响方向是否存在显著的差异?这些问题都在指引着我们对每笔成交的主动买卖特征进行划分,探析促成每笔成交的买卖倾向给因子有效性带来的差异。

本文,我们着重对逐笔成交数据展开分析。当前学术界和业界对逐笔成交数据的买卖特征划分方式主要有基于委托时间(Time Based)和基于成交价格(Price Based)两种。我们首先对这两种划分方法进行介绍,并对一些特定情况展开分析,发现二者在某些情况下的主动买卖特征划分均存在一定的不合理之处。随后,本文提出一种结合成交价格和委托时间的方式,并介绍其在A股市场中的应用。

基于委托时间的主动买卖特征划分法

1

基于委托时间(Time Based)的主动买卖特征划分法

基于委托时间的主动买卖特征划分法是当前基于逐笔成交数据划分方法中最简单、也最为常用的划分方式之一。

基于委托时间的主动买卖特征划分法认为委托时间靠前的订单为被动委托单,其挂在委托队列中被动等待成交,为市场提供流动性;委托时间靠后的订单为主动委托单,其在市场中主动寻找交易对手,消耗流动性。具体判断方式如下:

其中,Direction_i表示一笔成交记录的主动买卖特征,OrderTime_Buy表示该笔成交记录中委买单的委托时间,OrderTime_Sell表示该笔成交记录中委卖单的委托时间。

事实上,在逐笔成交数据中,委托时间越靠后,其订单编号往往越大。因此,研究者也可以根据一笔成交中委买单和委卖单的编号大小对该笔成交的主动买卖特征进行划分,即:

其中,Direction_i表示一笔成交记录的主动买卖特征,OrderID_Buy表示该笔成交记录中委买单订单编号,OrderID_Sell表示该笔成交记录中委卖单订单编号。

表5以中际旭创(300308.SZ)在2024年6月14日的几笔成交记录为例,展示了基于委托时间划分主动买卖特征的方法,在该案例中:

  • 前三笔(交易流水号为643、644和645)成交记录由同一笔委买订单(委买ID为402856)与三笔不同的委卖订单(委卖ID分别为409452、409781和409866)促成。在这三笔订单中,委买ID均小于委卖ID,这意味着委买订单的下单时间更早,其在委托队列中等待成交;委卖订单的下单时间更晚,其以不高于该笔委买单的挂单价促成成交,因此前三笔成交记录划分为主卖方向,即委托时间更晚的订单方向。

  • 第四笔(交易流水号为646)成交记录由委卖ID为79063和委买ID为410376的委托单促成,由于委卖ID小于委买ID,意味着委卖ID的委托时间更早、委买ID的委托时间更晚,因此该笔成交记录被划分为主买方向,即委托时间更晚的订单方向。

2

基于委托时间的主动买卖特征划分法不足

基于委托时间的主动买卖特征划分法简单明了,在逻辑上也有其合理性,但遇上一些特殊交易情况(例如涨停或跌停)时,其划分的准确性和合理性值得商榷。

如图6所示,试想这样一种情况,若某个大机构以当日涨停价挂出一笔大买单,该笔订单首先会将涨停价以下的委卖单全部成交,随后以涨停价交易的成交记录由于委卖单挂单时间靠后都会被划分为主卖方向,这一点与直观感觉相悖。

表6以工业富联(601138.SH)在2024年4月26日的几笔成交记录为例,展示了在大单推动股价涨停情况下基于委托时间划分主动买卖特征的不合理之处。在该日11:14:49时刻,一笔委托量为10万股的委买单将股票价格推至涨停。此时,交易流水号为223976-225616的成交记录中委卖单ID大于委买单ID,因此这几笔成交均会被划分为主卖方向,而实际上这些成交记录主要是由一笔大买单而推动的。

在较为极端的情况下,对于当日一字涨停的股票,其日内交易的绝大多数成交记录都会被划分为主卖方向,这显然不太合理。针对这种情况,基于成交价格的主动买卖特征划分法能够较好地解决这一问题。

基于成交价格的主动买卖特征划分法

1

基于成交价格(Price Based)的主动买卖特征划分法

基于成交价格的主动买卖特征划分方式最早由Blume(1989)提出,其划分逻辑简单明了,即根据当前成交价格与上一笔成交价格的高低来进行划分,具体来讲:

其中,Direction_i表示一笔成交记录的主动买卖特征,Price_i表示成交记录i的成交价格。从公式可以看到:

  • 若当前成交价格高于前一笔成交价格,则该笔成交划分为主买;

  • 若当前成交价格低于前一笔成交价格,则该笔成交划分为主卖;

  • 若当前成交价格等于前一笔成交价格,则该笔成交方向沿用前一笔成交方向。

由以上划分方式可知,基于成交价格的主动买卖特征划分法可以较好地解决个股涨跌停情况下基于委托时间划分方法的逻辑不合理问题。具体来看:

  • 当个股出现涨停时,当前成交价格大于等于前一笔成交价,此时该笔成交划分为主买;

  • 当个股出现跌停时,当前成交价格小于等于前一笔成交价,此时该笔成交划分为主卖。

表7以工业富联(601138.SH)在2024年4月26日的几笔成交记录为例,展示了基于委托时间和基于成交价格对主动买卖特征进行划分的区别。在该日11:14:49时刻,一笔委托量为10万股的委买单将股票价格推至涨停。此时:

  • 若基于委托时间判断,则表7中交易流水号为223976-225616的成交记录均会被划分为主买方向,而交易流水号为225617-225619的成交记录会被划分为主卖方向。

  • 若基于成交价格划分判断,交易流水号为223977的成交记录由原来的24.4元上升至24.41元,故被划分为主动买入方向;而后续的成交记录价格保持不变,因此沿用之前的方向,均被划分为买入方向。

2

基于成交价格的主动买卖特征划分法不足

基于成交价格的主动买卖特征划分能够较好地解决个股涨跌停时成交方向的划分问题,但在某些情形下其仍然存在值得商榷的部分。

首先,若仅根据成交价格高低对订单的主动买卖特征进行划分,那么当同一笔委托订单出现在不同的成交记录时,其可能会被划分为不同的成交方向。

其次,当个股价格出现冲高回落时,原本处于买一价且尚未成交完的委买单会被划分为相反的方向。

表8展示了中际旭创(300308.SZ)在2024年6月14日9点30分的几笔交易记录,在该案例中:

  • 交易流水号为643-645的成交记录委买单ID均为402856,该订单委买量高达125500股,委买价格为125.73元,为当时的盘口买一价。根据成交价格比较法,交易流水号为643-645的成交记录均划分为主买方向;

  • 在交易流水号为646的成交记录中,委买ID为410376的委买单以126元的价格超过实时盘口买一价(125.73元)从而推高价格,因此交易流水号为646的成交记录也被划分为主买方向;

  • 由于委买ID为410376的委买单的委买量仅有200股,在该订单成交后价格回落至125.73元,原来处于买一价、委买ID为402856的委买订单重回买一价位置,继续完成交易。然而,由于价格从125.74元下滑到125.73元,此时交易流水号为647-649的成交记录会被划分为主卖方向;

由上述分析可知,当个股价格出现冲高回落时,原本处于买一价且尚未成交完的委买单会被划分为相反的方向。这就会导致同一笔订单,可能由于实时价格的波动被划分至完全相反的方向,这一点合理性也值得商榷。

基于此,我们希望同一笔委托订单的方向划分在按照成交价格划分的基础上,保持早期订单主动买卖特征的连续性。在下一小节中,我们提出一种结合成交价格和委托时间的主动买卖特征划分法,结合当前的成交价格及委托订单首次出现时的主动买卖特征进行综合判断。

结合成交价格及委托时间的主动买卖特征划分法

1

结合成交价格及委托时间(Price-Time Based)的主动买卖特征划分法

本部分我们提出一种结合成交价格及委托时间的主动买卖特征划分法,结合当前成交价及委托订单第一次出现时的主动买卖特征综合判断, 示意图如图7所示。

首先,根据成交价格比较法进行初始判断:

  • 若当前成交价格高于前一笔成交价格,则该笔成交划分为主买;

  • 若当前成交价格低于前一笔成交价格,则该笔成交划分为主卖;

  • 若当前成交价格等于前一笔成交价格,则该笔成交方向沿用前一笔成交方向。

随后,结合委托方向及初始划分方向,定义交易倾向鲜明的主动委托单:

  • 获取首次出现时成交方向被划分为主买的委买订单,记为“主买委买单”,

  • 获取首次出现时成交方向被划分为主卖的委卖订单,记为“主卖委卖单”;

  • 我们认为“主买委买单”和“主卖委卖单”是一批具有鲜明交易倾向的订单。

最后,对于重复出现的订单,我们结合成交价格及委托时间进行修正:

  • 若本次成交中,委买单为“主买委买单”且非首次出现、委卖单为首次出现,则方向调整为主买;

  • 若本次成交中,委买单为首次出现、委卖单为“主卖委卖单”且非首次出现、则方向调整为主卖。

  • 其他情况下,不对成交方向进行调整。

在图8中,根据订单是否首次出现及其初始划分方向,BID1和BID4被划分为“主买委买单”,SID3、SID4、SID5和SID6被划分为“主卖委卖单”。随后,我们根据成交记录中的委买单和委卖单是否首次出现进行方向修正,其中:

  • 第5笔成交记录中,BID1为“主买委买单”且非首次出现、SID5为首次出现,因此其方向修正为主动买入方向;

  • 第7笔成交记录中,SID6为“主卖委卖单”且非首次出现,BID4为首次出现,因此其方向修正为主动卖出方向。

2

结合成交价格及委托时间的主动买卖特征划分法在大单上的应用

我们结合成交价格及委托时间将订单的主动买卖特征划分为“主买”和“主卖”两类,随后计算“主买订单成交量之和占全天成交量之比”(VolumeRatioBuy)和“主卖订单成交量之和占全天成交量之比”(VolumeRatioSell)。在20161231-20240731区间段内,因子的RankIC均值为-2.06%,年化RankICIR为-0.89;因子的RankIC均值为2.53%,年化RankICIR为1.09,对个股未来收益预测展现出一定的区分效果。

进一步地,我们将结合成交价格及委托时间的主动买卖特征划分法应用到大单子因子的构建过程中。具体来讲,我们首先对每笔成交记录的主动买卖特征进行划分,随后根据委托订单的“大单属性”和成交记录的“主动买卖特征”进行分类。由于每一笔成交均由买卖双方撮合决定,因此根据委托订单的“大单属性”可以被划分为4种类别,根据成交记录的“主动买卖特征”可以被划分为2种类别,共计4×2=8种类别。

我们将每只股票每日具有相同标签的成交记录的实际成交量进行加总,除以当日股票总成交量,即可构建该标签下的成交量占比因子。可以看到,引入主动买卖特征后的订单类型划分,事实上可以将构成大单因子的子因子进行进一步拆分,将其转换为主买和主卖两个因子的加总。

以买卖双方均为大单的因子构造为例:

我们将结合成交价格及委托时间的主动买卖特征划分法应用到大单子因子的构建过程中,将每个子因子拆分为主买和主卖两个因子的加总。

表9展示了基于成交价格及委托时间划分的大单子因子回测结果,可以看到:

  • 在大买&非大卖因子中,主买因子表现明显强于主卖因子,且二者方向反向;

  • 在非大买&大卖因子中,主卖因子表现明显强于主买因子,且二者方向反向;

  • 在大买&大卖因子中,主卖因子的表现明显强于主买因子。

引入主动买卖特征的大单因子改进

1

引入主动买卖特征的改进大单因子构建及表现

由表9知,当我们引入主动买卖特征对大单因子进行拆分后,部分子因子的表现呈现出明显的区分效果。基于此,我们挑选出其中有效性较强的几个子成分,经过方向调整后构建“引入主动买卖特征的改进大单因子”(VolumeRatioDirection),具体来讲:

图9和图10展示了引入主动买卖特征的改进大单因子和原始改进大单因子全市场中RankIC走势和分组月均超额收益情况。可以看到,自2017年以来,基于主动买卖特征调整的改进大单因子的月度RankIC均值为9.09%,年化RankICIR为4.27,月胜率89.01%。从分组月度平均超额收益分布来看,各组展现出严格的单调性,多头月度平均超额收益0.84%,空头月度平均超额收益-1.73%。

图11展示了引入主动买卖特征的改进大单因子多头相对基准的净值走势,图12展示了该因子多头和空头相对基准的分年度表现。可以看到月频调仓下多头组合年化超额收益9.23%,空头组合年化超额收益-20.73%,整体来看分年度表现也展现出一定的稳健性。

2

引入主动买卖特征的改进大单因子 VS 原始改进大单因子

为了探究“引入主动买卖特征的改进大单”因子(VolumeBigDirection)能否在“原始改进大单”因子(VolumeBig)的基础上提供增量信息,我们采用互相正交的方式观察在剥离掉另一个因子的影响之后,目标因子的有效性是否仍然存在。

首先将“引入主动买卖特征的改进大单”因子(VolumeBigDirection)对“原始改进大单”因子(VolumeBig)进行剥离,采用如下方式进行回归:

图13展示了回归后残差因子在全市场中的RankIC走势,自2017年以来,残差因子的RankIC均值为5.63%,年化RankICIR为2.98,月胜率81.30%。

接下来我们将“原始改进大单”因子(VolumeBig)对“引入主动买卖特征的改进大单”因子(VolumeBigDirection)进行剥离,采用如下方式进行回归:

图14展示了残差因子在全市场中的RankIC走势,自2017年以来,残差因子的RankIC均值为-0.86%,年化RankICIR仅为-0.46,月胜率45.10%。

由以上分析可知,当我们将“引入主动买卖特征的改进大单”因子对“原始改进大单”因子进行回归时,其残差仍具备较为稳定的选股效果;而将“原始改进大单”因子对“引入主动买卖特征的改进大单”进行回归时,其残差的选股能力较差。由此可见,“引入主动买卖特征的改进大单”可以完全解释掉原始的“改进大单”因子,并在此基础上提供较多的增量信息。

引入主动买卖特征的成交量占比因子统一框架

在国信金工团队2024年1月8日发布的专题研究报告《高频订单成交数据蕴含的Alpha信息》中,我们以订单大小和成交时长两个有效特征为例,提出了一种基于成交类型构建成交量占比因子的统一研究框架。本部分,我们将主动买卖特征作为一个特征引入到该研究框架中,观察订单主动买卖特征为该框架带来的增量信息。

具体来讲,我们可以基于委买单和委卖单的不同特征,将每一笔成交划分为不同的类型。随后,将相同类型的成交记录所产生的成交量进行加总,除以全天的成交量,构建了特定类型订单的成交量占比因子,公式表达如下:

其中,VolumeRatio_s表示类型为s的成交记录的交易量之和占全天交易量的比例,Volume_s表示类型为s的成交记录的交易量之和,VolumeAllDay表示全天交易量之和。

1

引入主动买卖特征的成交量占比因子统一框架

我们根据委托单的“大单属性”将订单分为大单、非大单两类,根据委托单的“漫长属性”将订单分为漫长订单和非漫长订单两类,根据订单的“主动买卖特征”将一笔成交划分为主买和主卖两类。由于每一笔成交由买卖双方撮合决定,而一笔订单在“大单”和“漫长”属性上即拥有4种取值,因此一笔成交记录从类型上可以被划分为4×4×2=32种类别,如表11所示。

为了便于理解,我们采用如下方式对不同类型的成交记录进行标记:

  • “BB”表示“Big Buy”,代表该笔成交的委买单是否为大单;

  • “BS”表示“Big Sell”,代表该笔成交的委卖单是否为大单;

  • “LB”表示“Long Buy”,代表该笔成交的委买单是否为漫长订单;

  • “LS”表示“Long Sell”,代表该笔成交的委卖单是否为漫长订单;

  • “B”表示“Buy”,代表该笔成交被划分为主动买入方向;

  • “S”表示“Sell”,代表该笔成交被划分为主动卖出方向;

为了表征订单类型是否属于该类型,我们以0-1后缀进行表示。后缀为1代表属于该类别,为0代表不属于该类别。由此,“BB1_BS0_LB1_LS0_B”即代表该笔成交记录中委买单为大单+漫长订单,委卖单为非大单+非漫长订单,方向被划分为主动买入方向。我们将每只股票每日具有相同标签的成交记录的实际成交量进行加总,除以当日股票总成交量,即可构建该标签下的成交量占比因子。

表12展示了不同订单类型成交量占比因子在全市场中的RankIC信息及月均超额收益。为了比较引入主动买卖特征划分的因子与原始因子的表现,我们在该表格中列出了进行主动买卖特征划分和不进行方向划分的因子表现,并按照不进行方向划分的因子年化RankICIR降序排列。

由表12可以看出,随着引入的特征维度越来越多,部分因子在引入主动买卖特征划分后呈现出明显的区分程度,如BB1_BS1_LB1_LS1_S因子的RankIC均值、RankICIR及多头月均超额均高于BB1_BS1_LB1_LS1因子的RankIC均值、RankICIR及多头月均超额,因此我们将其视为有效划分;部分因子在引入主动买卖特征划分后的区分程度并不明显,如BB1_BS1_LB0_LS1_B和BB1_BS1_LB0_LS1_S的多头有效性均低于BB1_BS1_LB0_LS1。

由此,我们提出一种基于因子有效性的“迭代分裂法”,其示意图如图15所示。具体来讲,我们首先根据订单大小和成交时长两个维度将逐笔订单划分为16个类型,并检验如上16个因子的有效性。针对其中的有效因子,再继续引入主动买卖特征进行进一步划分。若引入主动买卖特征后的因子表现明显提升,即可保留子因子;若引入主动买卖特征后的因子表现提升不明显,则沿用原始因子。基于此,我们将表12中标黄的因子进行合成,构建最终的复合精选因子:

图16和图17展示了精选复合因子在全市场中的RankIC走势和分组月均超额收益情况。可以看到,自2017年以来,精选复合因子的RankIC均值为8.93%,年化RankICIR为5.21,月胜率93.41%。从分组月均超额收益分布来看,各组展现出严格的单调性,多头月均超额收益0.99%,空头月均超额收益-1.56%。

图18展示了精选复合因子多头相对基准的净值走势,图19展示了该因子多头和空头相对基准的分年度表现。可以看到精选复合因子的多头表现十分稳健,自2017年以来每年都能够稳定战胜等权基准,多头组合年化超额收益11.11%,空头组合年化超额收益-19.04%。

2

精选复合因子在不同样本空间中的表现

本部分我们考察“精选复合因子”(VolumeSelect)在不同样本空间中的表现,包括常见的宽基指数如沪深300指数、中证500指数、中证1000指数国证2000指数,以及近几年市场关注度较高的不同风格型股票池,如小市值股票池、公募基金重仓股、高股息股票池和高ROE股票池。首先我们对近几年市场关注度较高的不同风格型股票池进行如下定义:

  • 小市值股票池:沪深股票池中剔除上市时间不满1年的新股、ST及*ST等风险警示股、三个月内存在ST或*ST等风险警示的股票后,按照其总市值取最小的1/3的股票池。具体构建方式可参见国信金工团队2022年4月5日发布的专题研究报告《聚焦小盘股—如何构建小市值股票投资策略》;

  • 公募基金重仓股:沪深股票池中最近一个基金季报中,被任意一只主动股基持有为前十大重仓股的股票取并集构建的股票池;

  • 稳定分红高股息股票池:沪深股票池中连续三年均进行现金分红且连续三年的股息支付率均大于10%的股票池中,股息率处于该股票池前1/3或处于该股票池中同行业公司前1/3的股票。具体构建方式可参见国信金工团队2024年6月24日发布的专题研究报告《红利投资全攻略》;

  • 稳健高ROE股票池:沪深股票池中连续三年ROE均值大于12%且每期大于8%或者连续三年ROE均值大于8%且最近两期ROETTM环比上升的股票池中,有买方机构重仓或卖方分析师覆盖、分析师预期净利润下滑幅度低、ROE波动率较低的股票。具体构建方式可参考国信金工团队2024年7月30日发布的专题研究报告《探寻股价回报源动力—基于ROE的高质量选股策略》。

图20展示了不同风格型股票池每期样本数量变化情况,总体来看小市值股票池和公募基金重仓股股票在1000-1500只股票左右,稳定分红高股息股票池和稳健高ROE股票池在500只股票左右。

表13展示了精选复合因子在不同的样本空间中的绩效:

  • 在宽基指数中,因子在中证1000指数和国证2000指数中的年化RankICIR明显更高,在沪深300指数和中证500指数中的多头超额收益表现较为稳健。与大部分量价类指标类似,其在指数成分股越多、市值区间越小的样本中展现的选股能力越强。

  • 在不同风格型股票池中,无论是分析师覆盖度少、公募基金持仓较低的小市值股票池,还是分析师覆盖度高、公募基金持仓较高的公募重仓股股票池,还是偏低估值、低波动的高股息股票池中,还是偏高ROE、机构认可的稳健高ROE股票池中,该因子都展现出较为稳定的选股能力。

图21展示了该因子在不同样本空间中的多空净值走势,整体来看在各个指数成分股中的多空表现都呈现出稳健向上的趋势。图21展示了该因子在不同样本空间中的多空净值走势,整体来看在各个指数成分股中的多空表现都呈现出稳健向上的趋势。

3

周频调仓精选复合因子表现

本部分,我们考察精选复合因子在周度调仓频率下的选股能力。图22和图23展示了该周频调仓精选复合因子(VolumeSelectWeek)在全市场中的RankIC走势和分组周度平均超额收益情况。可以看到,自2017年以来,周频调仓精选复合因子的周度RankIC均值为5.59%,年化RankICIR为6.85,周胜率83.72%。从分组周度平均超额收益分布来看,各组展现出严格的单调性,多头周度平均超额收益0.29%,空头周度平均超额收益-0.45%。

图24展示了周频调仓精选复合因子多头相对基准的净值走势,图25展示了该周频调仓精选复合因子多头和空头相对基准的分年度表现。可以看到周频调仓下多头组合年化超额收益13.09%,空头组合年化超额收益-23.17%。总体来看,周频调仓下的组合绩效表现比月频调仓下的组合绩效表现更为稳健。

4

精选复合因子与常见选股因子相关性

为了进一步探究精选复合因子对已有因子库的增量信息,本部分我们考察其与常见选股因子的相关性。

图26展示了该因子与常见选股因子的横截面平均相关系数,总体来看精选复合因子多头组合更倾向于低估值、强动量、大市值、低波动、低换手股票。该因子与成长类及分析师类因子的相关性较弱。

进一步地,我们将该因子对上述所有选股因子及所属行业进行正交剥离,采用如下方式进行回归:

其中,Alpha_i表示图26中列出的Alpha因子,e为通过正交回归得到的纯净因子。其中,Alpha_i表示图26中列出的Alpha因子,e为通过正交回归得到的纯净因子。

图27和图28展示了该纯净因子在全市场中的RankIC走势和分组月均超额收益情况。可以看到,自2017年以来,纯净因子的RankIC均值为3.90%,年化RankICIR为4.66,月胜率90.11%。

从分组月均超额收益分布来看,各组展现出较好的单调性,多头月均超额收益0.54%,空头月均超额收益-0.66%。总体来看,纯净因子依然具备较为稳健的选股能力,说明该因子能够为现有因子库贡献一定的增量信息。

总结

高频订单主动买卖特征蕴含的Alpha信息

考察高频订单的几个维度:在过往研究中,我们从订单大小、成交时长、成交时间、出价高低等多个维度对高频订单数据蕴含的Alpha信息进行了考察。本文我们聚焦订单特征的另一个重要维度——主动买卖特征。

主动买卖特征:每一笔交易都是由其背后的投资者交易而成,而每笔交易往往带有着强烈的交易倾向。促成买卖双方成交的一笔订单究竟是由买方主动促成,还是由卖方主动促成?不同订单主动成交方向对股价未来的影响方向是否存在显著的差异?这些问题都在引领着我们对每笔成交的主动买卖特征进行划分,探析促成每笔成交的买卖倾向给因子有效性带来的差异。

主动买卖特征划分方法梳理及比较

当前学术界和业界中,基于逐笔数据进行主动买卖特征划分的方法主要有基于委托时间(Time Based)和基于成交价格(Price Based)两类。

二者在某些特殊情形下的主动买卖特征划分均存在值得商榷的地方,因此本文提出一种结合成交价格及委托时间的主动买卖特征划分法。

基于主动买卖特征划分方法对构成大单交易占比因子的子因子进行拆分,均有良好的区分效果,能够分离出选股能力更强、稳定性更好的指标。

引入主动买卖特征的改进大单因子

因子表现:引入主动买卖特征的改进大单因子月度RankIC均值9.09%,年化RankICIR为4.27,月胜率89.01%。多头月均超额0.84%,空头月均超额-1.73%。

引入主动买卖特征的成交量占比因子统一框架

成交量占比因子统一框架:我们根据委托单的“大单属性”将订单分为大单、非大单两类,根据委托单的“漫长属性”将订单分为漫长订单和非漫长订单两类,根据订单的“主动买卖特征属性”将一笔成交划分为主买和主卖两类,对订单类型进行划分。

精选复合因子:我们提出一种基于因子有效性的“迭代分裂法”,基于订单大小、成交时长及主动买卖特征筛选有效维度构建精选复合因子。具体来讲,若引入主动买卖特征后因子有效性区分明显,则保留子因子;否则,沿用父因子,构建复合精选因子。

精选复合因子表现:月频调仓下精选复合因子月度RankIC均值为8.93%,年化RankICIR为5.21,月胜率93.41%。多头月均超额0.99%,空头月均超额-1.56%。周频调仓下精选复合因子的周度RankIC均值为5.59%,年化RankICIR为6.85,周胜率83.72%,在不同的宽基指数及风格股票池中均展现出较强的选股效果。

因子特征:精选复合因子更倾向于低估值、大市值、低波动、低换手股票。在剥离掉传统选股因子后,纯净因子仍展现出稳健的选股能力。

注:本文选自国信证券于2024年8月16日发布的研究报告《基于主动买卖特征的高频订单因子改进》。

分析师:张欣慰   S0980520060001

分析师:张   宇   S0980520080004

风险提示:市场环境变动可能会导致模型失效。因子失效、因子拥挤等情况的发生可能导致模型失效。

往期专题链接

量化选股系列:

1.《超预期投资全攻略》2020-09-30

海量资讯、精准解读,尽在新浪财经APP
改进

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 08-26 富特科技 301607 --
  • 08-23 益诺思 688710 --
  • 08-20 成电光信 920008 10
  • 08-19 佳力奇 301586 18.09
  • 08-15 小方制药 603207 12.47
  • 新浪首页 语音播报 相关新闻 返回顶部