中金 | 数智中国之海外前沿速递:LLM相关进展备受瞩目,Data+AI持续演绎

中金 | 数智中国之海外前沿速递:LLM相关进展备受瞩目,Data+AI持续演绎
2023年07月18日 07:34 市场资讯

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

2023年6月,Snowflake、Databricks和MongoDB分别召开了一年一度的技术峰会/用户大会,作为全球领先的数据平台厂商,每年大会上公布的技术进展、产品迭代均反映着行业最新发展趋势、备受业界瞩目,而去年底以来LLM的持续火热又为今年的大会增添新看点。今年的大会上,Snowflake、Databricks均发布了自然语言智能交互、AI应用开发工具链等LLM相关的产品进展,在数据管理平台基础能力方面亦持续迭代,而MongoDB亦宣布多项举措深化AI领域布局。反观国内,星环科技5月底召开产品发布会、爱数7月初在WAIC举办专题论坛、Kyligence近期举办年度用户大会,均有相关成果发布。我们建议投资者持续关注国内外Data+AI平台型厂商、AI Infra相关的产业进展及投资机会。

再次重申数据与AI一体两翼、AI Infra持续受益的观点。数据是人工智能模型训练的前提和基础,数据质量很大程度上影响模型效果。我们认为,数据与AI一体两翼、相辅相成,AI浪潮下,数据基础软件平台型厂商独具优势,其产品从数据层向AI层拓展是技术能力和业务逻辑的自然延伸。国内外头部厂商均积极坚定地推进Data+AI战略:以数据平台为底座扩充包括MLOps、向量数据库等在内的AI工具链产品,同时利用生成式AI增强产品的智能化交互能力,乃至进一步自研通用或垂类模型,逐步完善Data+AI基础设施平台能力,我们认为有望持续受益于AI渗透落地。

海外数据库技术峰会速递:1)生成式AI相关进展主要集中在自然语言交互、AI应用开发工具链两方面:自然语言交互方面,Snowflake Document AI支持非结构化数据分析查询;Databricks发布SDK for Spark、LakehouseIQ,实现开发、查询、检索等场景的自然语言交互;MongoDB使用生成式AI赋能数据库迁移。AI应用开发方面,Snowflake发布 Snowpark ML APIs、Streamlit in Snowflake等创新功能,Databricks发布Lakehouse AI旨在更高效便捷地组织AI应用开发工作流。2)数据管理平台基础能力亦持续迭代:Snowflake发布Iceberg Tables和 Snowflake Native App Framework;Databricks发布UniForm存储格式与Hudi、Iceberg互通等。自研之外,海外龙头亦通过收购扩大能力圈,近期AI相关交易频繁。

技术进展不及预期、应用落地不及预期、行业竞争加剧。

图表1:Snowflake、Databricks技术峰会最新发布概览

资料来源:各公司官网,中金公司研究部

资料来源:各公司官网,中金公司研究部

图表2:国产Data+AI相关厂商进展概览

资料来源:各公司官网、公众号,中金公司研究部

资料来源:各公司官网、公众号,中金公司研究部

Snowflake:数据云解决方案提供商,AI领域持续加码

领先的数据云提供商,数据科学与机器学习是重要负载之一

全球领先的数据云提供商,赋能企业数据流动。Snowflake成立于2012年,初期以提供云数据仓库产品为主,凭借云计算技术变革企业传统的数据分析系统;经过持续的创新与拓展,Snowflake形成数据云(Data Cloud)解决方案,旨在帮助客户打破数据孤岛、强化数据治理、推动数据流动。以云原生架构和公有云服务商(Amazon AWS,Microsoft Azure,Google GCP)提供的底层资源为基础,Snowflake面向客户提供数据仓库、数据湖、HTAP、数据协作、数据工程、网络安全、数据科学和应用开发等多种负载,让各个数据相关方都能无缝地挖掘数据价值、搭建数据应用、分享/变现数据产品。

图表3:Snowflake产品组合

资料来源:Snowflake公司公告,中金公司研究部

资料来源:Snowflake公司公告,中金公司研究部

AI布局是Snowflake完善负载类型、带动客户用量的重要抓手之一。Snowflake主要按照计算资源、存储资源和数据迁移资源的消耗量向用户收费,我们认为公司面向未来的核心发展战略是提供更先进的平台架构、更丰富的负载类型和更便捷的工具集成,推动客户将更多数据相关的使用场景迁移至Snowflake的平台,最终带动平台用量的提升。在这个意义上,我们认为AI布局将是Snowflake未来发展的重要抓手。从客户侧来看,基于统一的数据平台训练AI模型,也有助于优化数据迁移等成本、降低延迟并提升数据治理和安全性。当前,数据科学与机器学习(Data Science & ML)是Snowflake平台的重要负载类型,公司正在持续致力于自研创新和生态合作,赋能客户更便捷高效地训练、部署、管理乃至变现各类AI模型。

图表4:Snowflake在AI领域的愿景:为生成式AI和AI助手搭建底层数据平台

资料来源:Snowflake公司公告,中金公司研究部

资料来源:Snowflake公司公告,中金公司研究部

Snowflake Summit 2023最新发布

AI领域布局

Snowflake Summit 2023于当地时间2023年6月26日至29日举办,峰会期间[1]Snowflake公布了多项深化AI领域布局的举措,我们认为大致可以归类为以下几个方面:1)开放生态,拓展合作伙伴关系;2)推出多款平台型创新工具,更好支持开发者参与AI浪潮;3)以自有的AI大模型能力为用户赋能。

开放生态是Snowflake在AI领域布局的重要特点。我们认为,以带动底层数据平台的用量为目标,开放第三方合作是Snowflake选择的重要路径之一,公司加强了对外部AI工具/能力的支持和集成,从而让客户的AI需求能够在Snowflake丰富的生态体系内得以满足。具有代表性的合作案例包括:

► Microsoft:2023年6月26日,Snowflake宣布拓展与Microsoft的合作[2],深度集成Snowflake的数据云与Microsoft的Azure ML,客户可以更简便安全地将Azure Open AI与Microsoft Cognitive Services(将AI能力嵌入应用)的服务用于其存放在Snowflake的数据之上,获得最新的AI框架和持续集成/交付(CI/CD)的能力。同时,Snowflake还将加强与Microsoft Purview(数据监管)、Power Apps & Automate(低代码/无代码应用开发)、Azure Data Factory(ELT)和Power BI(数据可视化)等产品的集成,并宣布将增加在Azure上的支出。

► NVIDIA:2023年6月26日,Snowflake宣布与EVIDIA合作[3],利用后者的NVIDIA NeMo平台(云原生企业平台,用于搭建、定制化和部署数十亿参数的生成式AI模型)和GPU加速计算能力,赋能企业搭建自有的大语言模型,从而支撑聊天机器人、搜索和总结等应用场景,过程中无需对存放于Snowflake平台的数据进行迁移。

Snowpark Container Services的推出是Snowflake开放生态的关键步骤。Snowflake于2021年推出Snowpark,通过一系列代码库(libraries)和运行环境(runtimes),让开发者能够安全地在Snowflake的环境内部署和运行Python、Java和Scala代码,将支持的编程语言拓展至SQL语言之外。本次峰会推出的Snowpark Container Services[4]是Snowpark能力的进一步延伸,开发者可以基于Snowflake管理的基础设施来部署、管理和拓展各类容器化负载(大语言模型、数据管线、数据应用或其他函数功能),同时在计算层提供GPU等硬件选择,其价值在于:1)开发者可以使用任何编程语言(如C/C++、Node.js、R等)来进行编程;2)容器托管服务,开发者无需自己管理容器运行的底层计算资源;3)复杂的AI模型和应用可以直接利用Snowflake的数据。

图表5:Snowpark Container Services示意

资料来源:Snowflake公司公告,中金公司研究部

资料来源:Snowflake公司公告,中金公司研究部

例如,当某客户通过Snowpark Container Services来部署第三方生成式AI模型,模型的参数和逻辑将不能被终端用户获取,而用户用来微调模型的数据也不会展现给该大语言模型的提供商,保证了供需两方共同的知识产权和数据安全。当前,Snowpark Container Services处于小范围试用[5]阶段,合作伙伴包括Dataiku(人工智能与MLOps服务商)、HEX(数据科学与分析平台)和Alteryx(数据分析平台)等。

在开放生态之外,Snowflake在峰会期间还发布了一系列创新产品和功能,以帮助用户更好地开发和应用AI模型:1)Snowpark ML APIs(公开试用):使用常用的机器学习框架来进行特征提取和模型训练;2)Snowpark Model Registry(小范围试用):统一管理企业客户的各种AI模型,方便用户进行检索和发布,让MLOps得以流程化和规模化;3)Streamlit in Snowflake(即将公开试用):开源的Python库,让开发者能够使用Python语言将数据和AI模型转化为交互式应用,且该应用与Snowflake原生集成。

图表6:Snowpark ML Modeling API示意

资料来源:Snowflake公司公告,中金公司研究部

资料来源:Snowflake公司公告,中金公司研究部

同时,Snowflake还在峰会期间发布了自有的AI大模型能力:1)Document AI(小范围试用):通过大语言模型,使用自然语言交互的方式从文档等非结构化数据中抽取有分析价值的内容。该功能基于Snowflake 2022年收购的Applica的多模态大模型开发,未来Snowflake计划将该能力拓展至更多的非结构化数据类型。2)ML-Powerd Functions(公开试用):提供由AI模型能力支撑的SQL函数,可用于预测、异常值发现和贡献度分析等应用场景。

图表7:Snowpark ML Modeling API示意

资料来源:Snowflake公司公告,中金公司研究部

资料来源:Snowflake公司公告,中金公司研究部

产品创新与迭代

除AI领域布局外,Snowflake Summit 2023的又一看点是Snowflake产品服务的持续创新与迭代,业务矩阵不断丰富,公司作为统一数据平台的地位得以强化。部分具有代表性的产品创新与迭代如下:

► Iceberg Tables(即将小范围试用):Apache Iceberg是一种用于大规模分析数据集的开放表格式,具有SQL表的可靠性和简洁性,允许Spark、Hive、Presto等多种计算引擎在单一表上进行工作。Snowflake推出的Iceberg Tables支持客户用Apache Iceberg的格式来处理数据(Snowflake管理的数据和外部管理的数据均适用),同时保留Snowflake平台的易用性、高性能和数据治理能力。

► Snowflake Native App Framework(公开试用):Snowflake Native App Framework为开发者提供了一套在数据云中开发、推广、变现和分发原生应用的工具,App用户无需将自己的数据导出,而是直接让App在自己的Snowflake中运行,有利于提高原生应用的接受度。应用开发完成后,开发者可以通过Snowflake Marketplace对应用进行变现,开发者无需自己搭建变现账单系统。峰会期间,Snowflake宣布开发者已经可以基于该框架开发和测试应用(基于AWS),公司表示分发和变现功能将于今年下半年实现[6]。公司公开表示[7],目前Snowflake Marketplace上已有25款原生应用可供下载,此外还有超过100个开发者正在开发应用的过程中,代表客户包括Capital One、Goldman Sachs和Bond Brand Loyalty等机构。

图表8:Snowflake Native APP示意

资料来源:Snowflake官网,中金公司研究部

资料来源:Snowflake官网,中金公司研究部

图表9:Snowflake平台部分原生应用举例

资料来源:Snowflake公司公告,中金公司研究部

资料来源:Snowflake公司公告,中金公司研究部

► Marketplace Capacity Drawdown Program(公开推广):峰会期间,管理层介绍了Snowflake Marketplace的最新进展,截至2023年4月30日,平台上公开可搜索的数据产品同比增长66%,相关提供者超过430个。为进一步方便用户购买数据产品,Snowflake宣布用户可以直接用其平台账户内的储值来购买数据产品和原生应用[8]。

► 其他产品创新与迭代:1)Snowpipe Streaming(即将公开推广):自动注入流数据;2)Dynamic Tables(公开试用):使用声明式编程(Declarative approach)进行数据转化,降低数据管线构建难度;3)Git integration(小范围试用):支持CI/CD工作流等。

并购

并购亦是Snowflake完善产品生态的手段之一,图表10梳理了Snowflake近年具有代表性的并购案例。其中,Applica(文档理解)、Myst AI(时间序列预测)和Neeva(生成式AI数据搜索)的收购均显示出Snowflake在AI领域布局的决心。

图表10:Snowflake近年收购一览

注:统计截至2023年7月中旬资料来源:Snowflake及各标的公司官网,中金公司研究部

注:统计截至2023年7月中旬

资料来源:Snowflake及各标的公司官网,中金公司研究部

Databricks:数据湖仓头部厂商,Data+AI战略先驱

提供Lakehouse平台,支持数据科学、机器学习等AI相关工作流

Databricks提供全球领先的数据科学计算分析平台,深耕大数据领域十余年。Databricks是Spark官方发行版的开发公司,由伯克利大学AMP实验室Spark项目组的核心成员联合创立,提供一体化的数据湖仓平台产品,实现对海量结构及非结构化数据的存储、分析,并始终重视平台对数据科学、机器学习等AI相关工作流的支持。截至2021年下半年的最新公开融资,其估值达到380亿美元,截至2022年下半年公司宣布其ARR已超过10亿美元。

Databricks强调以数据为中心的机器学习模式,开源MLOps工具链项目MLflow。数据质量很大程度上影响模型训练效果,Databricks官方白皮书中提出在用于管理生产数据的同一平台上开发ML相关应用是保障数据及模型质量的较为简单的方法,通过Data+AI一体化平台,可以将存储在底层大数据平台、数据湖中的生产数据预处理后直接转化为模型训练数据,避免了冗余的数据复制、转化、传输等工序。因此,Databricks直接提供Machine Learning平台产品,涵盖数据准备、模型训练到模型投入生产的全流程,此外,Databricks还在2018年开发并开源了MLOps工具链项目MLflow,也是其ML平台的重要能力组件之一。

图表11:Databricks Machine Learning平台能力

资料来源:Databricks官网产品文档,中金公司研究部

资料来源:Databricks官网产品文档,中金公司研究部

除了提供Data+AI基础设施平台以外,Databricks还涉足底层模型,开源了类ChatGPT的低成本模型Dolly。3月24日、4月12日,Databricks分别发布了自训练的60亿、120亿参数量的大语言模型Dolly 1.0和2.0版本,并开源了训练代码、数据集和模型权重等且允许商用,这意味着任何企业都可以基于Dolly微调、定制自有的LLM模型,助力大模型技术平权。

2023 Data+AI Summit最新发布

AI领域布局

Databricks此次发布的和生成式AI相关的产品进展主要集中在两个方面:1)结合生成式AI代码生成能力,变革交互方式;2)推出平台型工具栈帮助用户高效开发生成式AI赋能应用。

升级交互方式:结合生成式AI能力,发布英文SDK for Spark及LakehouseIQ。1)新发布的SDK[9]支持使用英语作为“编程语言”,即借助LLM的代码生成能力,将英文的自然语言指令编译成PySpark和SQL代码,以降低专业使用门槛,进一步扩大Spark影响力。2)LakehouseIQ[10]利用Databricks平台上的各类指标、数据信息,扮演企业知识库角色,实现自然语言交互下的Text-to SQL辅助数据查询、产品内开放式语义搜索、提供管理和代码debug建议,并开放API以集成到客户自开发APP中。

图表12:新发布的SDK支持英文自然语言转Spark代码

资料来源:Databricks官网,中金公司研究部

资料来源:Databricks官网,中金公司研究部

图表13:LakehouseIQ可以实现自然语言交互下的数据查询、检索、辅助Debug等

资料来源:Databricks官网,中金公司研究部

资料来源:Databricks官网,中金公司研究部

完善AI应用开发生态:助力客户高效开发LLM赋能应用,提供Lakehouse AI解决方案[11],新增向量检索、特征服务功能。在数据准备环节,Lakehouse AI新增推出了向量检索和特征服务两个功能,向量检索帮助客户将企业自有知识和数据向量化后与LLM串联使用,特征服务则能让客户实时访问预先计算的特征数据,目前用户可以在官网提交功能试用申请。此外,在模型训练和应用环节,Databricks主要对原有的ML功能组件如AutoML、MLflow等进行了针对LLM特性的改造,比如AutoML新增对LLM的支持、MLflow新增LLM评估、提示词工程组件等。Lakehouse AI旨在给客户提供一套完整的生成式AI赋能应用的开发解决方案。

图表14:Lakehouse AI旨在给客户提供一套完整的生成式AI赋能应用的开发解决方案

资料来源:Databricks官网,中金公司研究部

资料来源:Databricks官网,中金公司研究部

为帮助客户选择生成式AI模型,MLflow升级后有模型评估功能,同时Databricks提供官方推荐列表。在MLflow 2.4升级版本中,客户可以使用一行简单的“mlflow.evaluate()”代码来评估LLM模型在例如文本摘要、问答、生成等用例下的预测和性能表现。用户可以自行选择、在Databricks平台上训练、调用任何可及的生成式AI模型,同时如图表15列式,Databricks在研究评估后也给出了不同用例下的官方选择建议(仅包含开源且允许商用的模型、不定期更新),其中就包含了Databricks近期收购的MosaicML旗下的、基于Databricks先前开源的dolly-15k数据集微调后的MPT模型。

图表15:Databricks官方推荐的生成式AI模型列表[12]

注:只包含开源且允许商用的模型,版本日期截至2023年6月12日 资料来源:Databricks官网,中金公司研究部

注:只包含开源且允许商用的模型,版本日期截至2023年6月12日 资料来源:Databricks官网,中金公司研究部

产品创新与迭代

除了LLM以外,Databricks在平台开放性、数据共享、流处理能力等基础技术和平台能力方向上持续迭代:

► 升级Delta Lake 3.0[13],发布Delta Universal Format(简称UniForm)存储格式,与Hudi、Iceberg等开源数据湖仓格式互通。Delta、Hudi、Iceberg都是通过在Parquet格式的数据文件之上再建立一层元数据来实现数据湖仓存储的,利用这一技术共性,用UniForm格式写的增量表可以直接在Hudi、Iceberg环境中打开,减少不必要的复制和转换步骤,数据平台更开放。

图表16:Delta UniForm与Hudi、Iceberg开源数据湖仓格式互通

资料来源:Databricks官网,中金公司研究部

资料来源:Databricks官网,中金公司研究部

► 在Unity Catalog中增加数据联邦(Federation)功能,支持外部平台数据源的统一查询管理。Unity Catalog是Databricks推出的针对平台上数据和AI相关工作流的统一治理解决方案,通过元数据(Metastore)-目录(Catalog)-范式(Schema)-表(Table)四层结构,来辅助平台中数据、模型、Notebooks等对象的管理。今年大会上,Unity Catalog新增数据联邦能力[14],可以实现对包括MySQL、PGSQL、Snowflake等在内的多个外部平台数据的统一查询和管理。除数据联邦外[15],一方面,为了统一纳管ML工作流,公司计划在Unity Catalog中新增模型注册(Model Registry)、特征商店(Feature Store)功能模块;另一方面,利用AI来反哺增强Unity Catalog中的平台可观测性和监控能力。

图表17:Unity Catalog数据联邦实现对多个外部数据源的统一查询、治理

资料来源:Databricks官网,中金公司研究部

资料来源:Databricks官网,中金公司研究部

► Databricks Marketplace正式上线[16],目前以数据产品为主,未来还将支持模型和应用的上架:Databricks Marketplace提供一个数据资产的交换共享平台,且支持非Databricks用户访问,目前已经上架数据产品的供应商包括金融领域的S&P、Bloomberg Government;医疗健康领域的IQVIA等。公司计划未来除了数据之外,还将支持AI模型、Databricks平台原生应用的上架。

图表18:Databricks Open Marketplace正式上线

资料来源:Databricks官网,中金公司研究部

资料来源:Databricks官网,中金公司研究部

► 流处理能力一直是Spark的强项所在,Databricks亦持续通过发布迭代新功能组件不断精进完善[17]。其中,Delta Live Tables是Databricks去年发布的一个声明式的ETL框架,帮助数据工程师更方便地构建分析数据流,主要功能组件包括Streaming table(便于处理不断更新的数据集且每一行只处理一次、保障低时延)和Materialized view(实时更新的预定义的流数据视图),今年的更新主要在于将前述能力扩展到Databricks SQL数仓中[18]、将Delta Live Tables接入Unity Catalog统一纳管。此外,去年公司还发布了Lightspeed项目,致力于更快、更简单地使用Spark进行流处理,今年该项目在性能、可观测性、生态丰富度等方面均有细节改进。

图表19:通过Delta Live Tables赋能企业快速便捷地构建实时BI仪表盘

资料来源:Databricks官网,中金公司研究部

资料来源:Databricks官网,中金公司研究部

并购

除自研以外,Databricks在产业收购方面亦频频落子,2022年以来重点向AI方向转移。如图表20整理,Databricks近年的收购主要集中在提升数据管理平台基础能力和AI协同方向上,2022年以来AI相关收购明显增多,覆盖了MLOps、AI存储、生成式AI训练等热点领域。

图表20:Databricks近年收购一览

注:统计截至2023年7月中旬 资料来源:Databricks及各标的公司官网,中金公司研究部

注:统计截至2023年7月中旬 资料来源:Databricks及各标的公司官网,中金公司研究部

MongoDB:文档型数据库龙头,有望受益于AI浪潮

领先的现代化、通用型开发者数据平台服务商。MongoDB以文档模型(Document Model)为核心,为开发者提供一个现代化的通用型数据平台,以协助其构建软件和数据应用。MongoDB的产品旨在为客户提供更高性能、更灵活、更具拓展性和可靠性的数据库,同时又保留传统关系型数据库的优势。目前,MongoDB的两大商业化产品为MongoDB Atlas(DBaaS,多云托管的云数据库)和MongoDB Enterprise Advanced(客户自己管理,可以在云端、本地或者混合环境部署),同时提供Community Server和MongoDB Atlas (Free)作为免费版本以推动产品普及。

图表21:MongoDB技术架构示意

资料来源:MongoDB官网,中金公司研究部

资料来源:MongoDB官网,中金公司研究部

当地时间2023年6月22日,MongoDB在纽约举办了用户大会(MongoDB.local NYC),公司管理层介绍了当今AI浪潮如何影响MongoDB以及MongoDB如何布局,我们总结其中的部分要点如下:

► AI或将增加应用的数量和复杂性,MongoDB能够作为底层数据库支撑AI应用。管理层表示,正如C/S架构、移动互联网和云计算所带来的变革,AI浪潮有望显著增加应用的数量,同时提高应用的复杂性。管理层认为AI应用的特点在于:1)需要处理大量不同种类的数据,如图像、视频和语音,不再仅局限于结构化数据;2)快速持续的应用迭代;3)出现机器驱动机器(Machine-to-machine)的应用模式,交互方式的自动化和处理速度要求的提高对底层基础设施构成了新的压力;4)需要将数据在多云、多地区分布式部署,以达到低时延和可靠性的目的。管理层指出,MongoDB产品的特性正好在于:1)灵活的文档模型和丰富的查询语言,可以支持多种类数据;2)支持多种负载类型,赋能应用快速迭代;3)具备较好的性能和可拓展性;4)全球多云布局,这些特性与AI应用的要求相契合,有望在AI时代增强MongoDB数据库的吸引力。

► 推出Atlas Vector Search,赋能开发者将生成式AI和语义搜索引入应用程序。用户大会上,MongoDB宣布推出Atlas Vector Search,与开源的LangChain和LIamaIndex框架集成。大语言模型需要以向量的形式存储数据,但是当前不少企业的技术堆栈缺乏灵活性,部署专用数据库又进一步增加了技术堆栈的复杂性。Atlas Vector Search允许使用统一的平台来整合应用数据和向量数据,为文本搜索和图像搜索等新工作负载提供支持;同时,Atlas Vector Search还支持客户更安全地使用自己的数据来增强大模型的能力,且MongoDB Atlas可以直接用于管理大模型的输出。除Atlas Vector Search之外,MongoDB还在用户大会上推出了Atlas Search Nodes(为企业级搜索提供专用资源)、Atlas Stream Processing(处理高速复杂工作流)、Atlas Time Series Collections(处理企业级时间序列工作负载)、Atlas Online Archive和Atlas Data Federation(在Microsoft Azure上进行分层和查询数据)等创新功能。

图表22:MongoDB Atlas Vector Search示意

资料来源:MongoDB公司公告,中金公司研究部

资料来源:MongoDB公司公告,中金公司研究部

国内厂商进展

星环科技:助力AI时代的数据处理智能化、多模态、平民化

智能化:星环提供Sophon LLMOps助力企业微调大模型、开发AI赋能应用,发布金融及大数据分析领域的两个自研垂类大模型。

Sophon LLMOps:在Sophon MLOps基础之上根据LLM开发应用过程中的特性进行功能增强。拥有样本仓库、模型运维管理、大模型和其他任务编排调度上线等能力,帮助企业快捷构建、应用自有行业大模型。

图表23:基于星环产品栈的企业自有大模型应用构建流程示意图

资料来源:WAIC大会,星环科技公众号,中金公司研究部

资料来源:WAIC大会,星环科技公众号,中金公司研究部

星环无涯金融大模型:根据公司公众号披露[19],使用上百万的涵盖研报、公告、政策、新闻等高质量的自然语言文本作为二次预训练语料,融合了舆情、资金、人物、空间、上下游等多模态信息,支持市场事件盘、总结及演绎推理,支持政策研报的深度分析,还能构建六类大模型基础因子集、支撑复合因子策略体系。

星环求索大数据分析大模型:具备大数据行业需求理解、推理、各类(含多模型)结构化查询语言和OpenCypher代码生成、文本生成、嵌入向量生成、知识推理等能力。公司在大会上披露,求索在复杂场景的SQL生成正确率表现上优于通用大模型。

多模态:TDH支持11种数据模型,向量数据库Hippo正式产品化

TDH大数据平台产品:公司拳头产品TDH始终定位为分布式的、多模的、平台型的企业大数据基础软件产品,根据公司官网最新产品文档,新增向量数据库存储引擎后,共计支持10 种独立存储引擎,支持主流的11 种数据模型。

图表24:星环科技TDH产品架构

资料来源:WAIC大会,星环科技公众号,中金公司研究部

资料来源:WAIC大会,星环科技公众号,中金公司研究部

向量数据库Hippo:向量数据库承担了中间存储的角色,是大语言模型的“海马体”,有效解决大模型知识时效性低、输入能力有限、准确度低等问题。根据公司公众号披露[20],星环Hippo向量数据库具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,满足企业级的、针对海量向量数据的、高实时性检索需求。

图表28:向量数据库承担LLM“海马体”的重要角色

资料来源:WAIC大会,星环科技公众号,中金公司研究部

资料来源:WAIC大会,星环科技公众号,中金公司研究部

平民化:Sophon升级到3.2版本,通过“六易三仓两中心”实现新一代AI平民化

Sophon 3.2秉持以数据和模型为中心的理念,覆盖数据接入获取、模型构建训练、模型运维管理、模型发布迭代等AI应用全生命周期,提供样本仓、模型仓和场景仓,实现样本管理、场景开发、模型获得、模型管理、效果迭代及系统运维六大方面的易用性,实现新一代AI平民化。

Kyligence(未上市):领先的指标中台厂商,发布Copilot AI数智助理

由Apache顶级[21]OLAP项目发展而来的领先指标平台供应商。Kyligence由Apache Kylin创始团队于2016年创办,是领先的大数据分析和指标平台供应商,提供OLAP平台产品Kyligence Enterprise和一站式指标平台Kyligence Zen,提供企业级经营分析能力、决策支持系统及各种基于数据驱动的行业解决方案。根据官网披露,公司已服务包括建设银行平安银行浦发银行、中国银联、上汽、长安汽车、星巴克、安踏、李宁等在内的众多全球知名企业客户。

发布Copilot AI数智助理,支持多轮智能问答、根因分析、提供行动建议、自动化建立仪表盘等。公司在2023用户大会上发布Kyligence Copilot预览版,将LLM能力接入指标中台产品协助智能分析,支持对轮问答、生成图表和文字根因分析,可以基于历史问答交互一键生成仪表盘,还能和外部三方APP如飞书等工作任务流程关联。公司旨在通过LLM赋能提升企业客户的数据分析效率、释放管理和组织协同潜力。

图表26:Kyligence Copilot赋能智能数据分析

资料来源:2023 Kyligence 用户大会,中金公司研究部

资料来源:2023 Kyligence 用户大会,中金公司研究部

爱数(未上市):结合LLM和知识图谱推出领域认知智能产品

灾备市场市占率领先,业务拓展至全域数据管理。爱数成立于2006年,从灾备业务起家,根据IDC数据,2021年爱数在我国备份一体机市场市占率排名第三。近年,顺应数据智能发展趋势,公司逐步拓宽产品矩阵,除AnyBackup(备份一体机)外,扩充了AnyShare(针对海量非结构化数据的智能内容管理平台)、AnyRobot(针对机器数据的智能运维可观测性平台)、AnyFabric(针对结构化数据的全域数据资产管理平台)等,致力于提供能整合、治理、洞察、保护企业全域数据的大数据基础设施。

升级AnyShare智能内容管理平台,推出AnyShare认知助手和AnyShare大模型一体机。在2023世界人工智能大会上,爱数宣布将基于领域大模型及领域知识图谱的技术能力,进一步提升企业内容管理平台的智能化水平,推出AnyShare认知助手,提供智能搜索、智能问答、辅助创作、辅助阅读等认知能力。落地形式上,推出AnyShare大模型一体机,助力低成本私有化部署。

图表27:基于LLM和知识图谱升级AnyShare认知助手

资料来源:爱数公众号,中金公司研究部

资料来源:爱数公众号,中金公司研究部

技术进展不及预期:人工智能作为前沿新兴技术,仍处于技术的快速发展期,其进展有一定的不确定性,若技术进展不及预期,可能导致产业化进展缓慢。

应用落地不及预期:应用及商业化落地是人工智能能否顺利走向下一阶段的关键点,若国内应用及商业化落地节奏不及预期,对人工智能的进展将带来负面影响。

行业竞争加剧:人工智能是产业的热点,未来商业价值显著,科技巨头、初创公司均在此领域布局,未来垂类及应用层的行业竞争可能会进一步加剧。

[1]下文提到的部分举措为峰会之前宣布。

[2]资料来源:https://investors.snowflake.com/news/news-details/2023/Snowflake-Expands-Partnership-with-Microsoft-to-Bring-Large-Scale-Generative-AI-Models-and-Increased-Machine-Learning-Capabilities-to-the-Data-Cloud/default.aspx

[3]资料来源:https://investors.snowflake.com/news/news-details/2023/Snowflake-and-NVIDIA-Team-to-Help-Businesses-Harness-Their-Data-for-Generative-AI-in-the-Data-Cloud/default.aspx

[4]资料来源:https://investors.snowflake.com/news/news-details/2023/Snowflake-Extends-Programmability-for-Developers-with-New-Snowpark-Container-Services-to-Run-Secure-Generative-AI-in-the-Data-Cloud-Includes-NVIDIA-GPUs-Notebooks-Apps-and-More/default.aspx

[5]Snowflake的产品通常可以分为研发(In development)、小范围试用(Private preview)、公开试用(Public preview)和公开推广(General available)四个阶段

[6]资料来源:https://www.snowflake.com/blog/native-app-framework-available-developers-aws/

[7]资料来源:https://investors.snowflake.com/news/news-details/2023/Snowflake-Native-App-Framework-Empowers-All-Developers-to-Join-Industry-Leaders-like-Capital-One-Software-DTCC-and-Matillion-in-Building-Distributing-and-Monetizing-Apps-Within-the-Data-Cloud/default.aspx

[8]资料来源:https://investors.snowflake.com/news/news-details/2023/Snowflake-Native-App-Framework-Empowers-All-Developers-to-Join-Industry-Leaders-like-Capital-One-Software-DTCC-and-Matillion-in-Building-Distributing-and-Monetizing-Apps-Within-the-Data-Cloud/default.aspx

[9]https://www.databricks.com/blog/introducing-english-new-programming-language-apache-spark

[10]https://www.databricks.com/blog/introducing-lakehouseiq-ai-powered-engine-uniquely-understands-your-business

[11]https://www.databricks.com/blog/lakehouse-ai

[12]https://www.databricks.com/product/machine-learning/large-language-models-oss-guidance

[13]https://www.databricks.com/blog/announcing-delta-lake-30-new-universal-format-and-liquid-clustering

[14]https://www.databricks.com/blog/introducing-lakehouse-federation-capabilities-unity-catalog

[15]https://www.databricks.com/blog/whats-new-unity-catalog-data-and-ai-summit-2023

[16]https://www.databricks.com/blog/whats-new-data-sharing-and-collaboration-lakehouse

[17]https://www.databricks.com/blog/whats-new-data-engineering-and-streaming-data-ai-summit-2023

[18]https://www.databricks.com/blog/introducing-materialized-views-and-streaming-tables-databricks-sql

[19]https://mp.weixin.qq.com/s/6rYmk58OypU_Wwu0L7-nTw

[20]https://mp.weixin.qq.com/s/JsQBTh9ATdLN7yRkTHvDhg

[21]https://www.infoq.cn/news/2015/12/apache-kylin-top-level-project/;https://news.apache.org/foundation/entry/the_apache_software_foundation_announces85

本文摘自:2023年7月16日已经发布的《数智中国之海外前沿速递:LLM相关进展备受瞩目,Data+AI持续演绎》

于钟海 分析员 SAC 执证编号:S0080518070011 SFC CE Ref:BOP246

韩蕊 分析员 SAC 执证编号:S0080523070010

肖楷 分析员 SAC 执证编号:S0080523060007

胡安琪 联系人 SAC 执证编号:S0080122070070

现在送您60元福利红包,直接提现不套路~~~快来参与活动吧!
海量资讯、精准解读,尽在新浪财经APP
AI 中金 应用开发 AI领域 azure

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 07-24 金凯生科 301509 --
  • 07-24 长华化学 301518 --
  • 07-20 敷尔佳 301371 --
  • 07-19 逸飞激光 688646 46.8
  • 07-19 浙江荣泰 603119 15.32
  • 产品入口: 新浪财经APP-股票-免费问股
    新浪首页 语音播报 相关新闻 返回顶部