21世纪经济报道记者 唐婧 北京报道
11月9日,由南方财经全媒体集团指导、21世纪经济报道主办的“第十九届21世纪金融年会”在北京召开。年会期间同步举办了以“问道数字金融新方向”为主题的闭门研讨会,来自北京大学国家发展研究院、商业银行、消费金融公司、金融科技公司的10余位数字金融领域业内人士出席并发言交流。
华夏银行信息科技部副总经理王彦博表示,今年全国两会政府工作报告中提出要深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。中国人民银行印发的《金融科技发展规划(2022—2025年)》也明确提出,要抓住全球人工智能发展新机遇,以人为本全面推进智能技术在金融领域的深化应用。实际上,商业银行已广泛应用人工智能技术,在精准营销、智能风控、智慧经营、依法合规等诸多业务场景及流程环节构建了大量人工智能模型。
不过,王彦博也指出,商业银行在某些特定领域可能面临着数据样本量不足的问题,导致现有的人工智能技术失效。比如,针对某类业务的细分场景构建模型,虽然整体的数据样本量较大,但是细分后的数据样本量可能变得很小。又比如,“冷启动”是商业银行开展新业务时不可逾越的一个阶段,此阶段业务数据样本正处在逐渐累积的过程中。在上述情况下构建具有较强判别能力的智能模型是金融机构面临的一个问题。这就引发了一个思考,是否只有大数据才能驱动人工智能,若没有足够量的数据样本就意味着无法实现人工智能了吗?显然,无论数据样本量如何都不会影响人们追求和获得人工智能能力的决心,因此小样本学习新兴技术应运而生。
六方面破解小样本学习问题
华夏银行提出了解决小样本学习问题的“6M”框架方法论,并在《银行家》期刊上发表相关文章。
一是基于专家经验的小样本学习(Man-based few-shot learning),即依托业务专家经验形成规则来构建模型,常见的技术方法包括规则模型、评分卡模型、层次分析法模型、社交网络与知识图谱模型等。
二是基于数据算料的小样本学习(Material-based few-shot learning),即通过增加数据量将样本扩充为大样本,常见的技术方法有两类:一类是基于数据本身,通过样本增强的方法(如SMOTE、GAN等)扩充样本量进行建模;另一类是在“数据可用不可见”的思想下,利用联邦学习技术来实现扩充样本进行建模。
三是基于模型泛化的小样本学习(Model-based few-shot learning),即从模型的角度入手,利用某类数据集学会一种学习的机制(如每个类别分类器参数的产生机制等),然后迁移到目标小样本数据集中,通过参数微调使得模型具有更强的泛化性,能够快速进行新类的学习,常见的技术方法包括迁移学习、元学习等。
四是基于计算方法的小样本学习(Method-based few-shot learning),即聚焦算法创新,选择合适的嵌入方法将数据的原始特征嵌入一个可分的空间,在新空间构造特征后进行建模,常见的技术方法包括支持向量机中的核函数法、分类关联规则挖掘中的频繁项集法和利用网络进行特征嵌入法等。
五是基于仿真环境的小样本学习(Environment-based few-shot learning),即在极少样本甚至无样本的条件下,通过梳理业务传导逻辑,构建端到端的数字孪生仿真模拟环境,并通过强化学习相关技术进行建模。
六是基于计算机发展的小样本学习(Machine-based few-shot learning),即基于量子科技发展将经典计算机升级为量子计算机,从而对小样本数据集直接构建量子算法模型。实证表明,该类技术方案在解决小样本学习问题上较经典机器学习方案有着明显的优势。
开展群组训练推进小样本学习应用研究
针对小样本学习问题,在基于数据算料的小样本学习方面,王彦博还提出了一种新的解决方案——群组训练(Group Training),它同时具备样本增强和特征增强技术特性,能够有效提升小样本学习任务的模型准确性。王彦博表示,平行于群组训练,华夏银行前段时间还提出了群组测试(Group Testing)技术方案,将核酸检测或血液检测所使用的Group Testing方法引入到机器学习和模式识别任务上,使人工智能模型在推理测试环节的时间大幅度缩减,有效节省了计算能耗,对人工智能向绿色低碳发展有一定借鉴意义。
关于群组学习(Group Learning)的概念,是指在机器学习和模式识别模型训练或推理测试过程中,将训练数据集或测试数据集中的数据样本进行多样本合并组合,而后面向新生成的合并组合样本开展Group Training(群组训练)或Group Testing(群组检测/测试)的新兴技术方案。
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)