江小涓谈数据驱动创新：解决已知的复杂问题，揭示未知的复杂关系|江小涓_新浪财经

编者按

2024年7月3日，2024中国数字经济发展和治理学术年会在清华大学成功举办。本届学术年会聚焦“数据要素、人工智能与数智时代的理论创新”，邀请国内外40余位专家、学者及机构代表进行主旨演讲和交流。来自清华大学、北京大学、中国人民大学、中国科学院大学、中国社会科学院大学、浙江大学、南开大学、上海交通大学、西安交通大学等高校和数字经济相关科研机构及企业代表共400余人出席线下会议。会议通过多个平台同步直播，当天信息浏览量超过十万人次。

年会主席团主席、国务院原副秘书长江小涓以《数字时代的创新及其对经济学研究的影响》为题进行了主旨演讲。本文根据江小涓教授现场发言内容整理。

江小涓教授作主旨演讲

谢谢冯老师。各位老师、各位同学，大家下午好！

大会二的主题和今天上午几位老师的发言都非常有关。数字时代的创新，如果用一句话说，就是科学研究和我们一般讲的创新，都转入到了一个数据要素驱动的模式，我主要讲这样一个观点。

现在我们数据生成、传递和处理能力极大地提升，导致了数字时代的创新呈现出了数据驱动的新形态。数据驱动的创新有很多特点，我们今天聚焦在一个问题上，因为这个问题可以回应到我们对于经济、社会、金融等问题的处理上，解决高度复杂的问题。比如金融风险的生成和控制，经常被举例为社会科学领域的复杂问题。实际上我们过去的模型是非常难以做出准确的预测和判断的。现在的数据规模和实时性有可能揭示高度复杂的经济关联，来更好地理解和处理经济社会的问题。同时它也确实带来了新的挑战。下面我就围绕着对复杂问题的处理能力讲两点，看看数据驱动的创新和它对经济学研究带来的机遇和挑战。

首先我们来看数据驱动的创新。自2014年甚至更早以来，科学界就已经开始讨论大数据驱动的科研。现在认为海量数据和智能化的分析工具正在推动科学研究向数据驱动型转化，这方面还是有比较多的文献。创新是一个比科研更加宽泛的概念，大家可以理解，涉及科学技术、企业家精神、市场结构、产业组织和有关的政策制度安排，是由多方面因素综合决定的。从这个角度讲，我们学术界对于海量数据出现带给创新过程的系统性影响的关注还是比较少的。我有一个团队一直在研究这个问题，其实我去年讲的和今年讲的题目是有关联的。

长期以来我们既有科研范式，也有创新范式，它原本是在各自演进的，但是现在它正逐渐向同一个方向去聚焦。我们先看一看科研的范式。传统的科研范式主要有实验观测、理论推演和计算仿真，这些都是随着技术能力的提升而发展的。到了现在，其实原来的模式并没有消失，我的理解是新增了一个非常重要的创新范式。进入数字时代，由数据驱动我们的科研范式往上走，现在至少有四种：实验观测、理论推演、计算仿真和数据驱动。数据驱动已变成了一种最有时代感的科研范式。

我们具体看看对创新范式的一般理解，具体分类有：技术推动的、需求拉动的、供需双方互相互动的以及系统集成的。到这个时代，创新出现了一种非常重要的新范式，就是数据驱动。科研范式和创新范式两者正逐渐趋同，其最重要的原因在于，无论是科学问题还是创新问题，最终都可以还原成为统一的数据。

接下来，我将讨论数据驱动创新带来的变化，特别是在解决复杂问题方面的影响。这些变化体现在四个层面上，并且在社会科学和自然科学层面都是一样的。

第一，它能解决已知的复杂问题。我将通过蛋白质结构预测的研究来说明这一点。蛋白质结构预测，我们都知道这是什么类型的问题，而且大概知道怎么样能做出来，但是原来的方式太低效了。以往要解决如此海量工作量的问题，时间会非常非常久。

第二，它可以揭示未知的复杂关系。利用海量数据和高效的计算能力，可以在不依靠理论假设的情况下，发现数据间隐藏的复杂关联。计算能力是指计算数据之间的相互关系。过去，我们都是先有一个理论假设，然后去证实它。而现在，只要有一个很好的算法，就可以把海量的、看上去不关联的数据之间的关系给找出来，其实就是找到了一个未知复杂关系，找到了新的研究问题。

第三，它可以实时校正科研的方向。它可以结合数据驱动和理论模型驱动的方法，实现过程性的非常微量的调整，然后不断地去回应现实世界提出的问题。此外，如果研究方向“走偏”了，它也可以及时纠正，不需要最后发现失败之后再重新开始，从最初的理论假设开始来做。

第四，它可以洞察颗粒化的场景，并且实现个性化的赋能。颗粒化的场景非常非常细微。数据驱动的创新既能处理海量的数据，还能精准刻画非常微粒的场景，从而显著提升对场景的洞察能力。

我们来看科学领域的几个例子。左边这张图就是AlphaFold预测蛋白质的三维结构，这是一个已知的复杂问题。大家知道人类至少有2万个蛋白质，这些蛋白质由20种氨基酸的排列组合构成。但是过去的分析是用电动冷镜的方式，做出一个分析，大概需要数万美金和数月时长，全面完成则几乎遥不可及。现在AlphaFold2经过几次迭代之后，已经能够准确预测超过100万个物种的2.14亿个蛋白质三维结构，它就是用Transformer这个模型自学习的机制，然后迭代，不断发现不同氨基酸排列组合之间的关系，最后做预测。这种方式极大增强了对已知复杂科学问题的解决能力。

右边这张图展示了它如何揭示未知复杂的关系。在不依靠假设的情况下，利用高性能的计算方法进行高精度分子动力学模拟，发现数据间隐藏的复杂关联，模拟规模拓展到了一亿个原子。通过这种方式，发现新的科学对象的效率提升了千倍，依靠海量数据以及发现数据间的规律性关系，来预测性地推出还有什么东西存在。所以它对解决复杂性问题有很大意义。

第三个例子是实时校正科研的方向。根据研究进展中的提示不断调整，朝着更可能正确的方向前进。这是一个谷歌的模型，来预测无机晶体结构，用这种方法一边做、一边学、一边校正方向，已成功预测了超过38万个热力学稳定的晶体材料，极大缩短了新材料按需研发的时间。

最后一个是医疗，大家比较好理解，偏人文领域。通过分析大量个性化数据，包括病人的自身健康数据、生物标志物、生活习惯、社会环境、生态环保等大量多维度复杂数据，可以为每个患者提供非常个性化的医疗方案。

以上，我举了四个例子，来讲数据怎么支持复杂问题的解决。它们最后都是通过海量数据、算法来找到数据间的关系，然后推动了数字时代的某一类科研领域的发展和进展。这是我要讲的第一点。

第二点，我们来看看数据驱动对经济学研究带来的机遇和挑战。其实数据驱动对整个人文社会科学的研究都带来了新的机遇，但也伴随着不确定性的挑战。和我们刚才讲的一样，数据驱动的创新通过支持数据化，支撑了复杂性问题的分析与解决，为经济学发展提供了新的机遇。当代经济学的一项重要研究类型是实证，就是以数据为基础来推断变量之间的因果关系，但是确实受限于数据的数量和质量，因果关系的可解释性和计算能力也存在挑战。虽然有时候我们觉得数据量已经很大了，但是和描述真实经济社会过程来比，数据量仍显不足。而且传统研究有时会采用一些确认因果关系或者某种因素影响程度的处理办法，比如主成分法、双重差分、断点回归等等，这使传统经济学研究方法对问题的分析，离真实过程的差异程度比较大。所以我们讲经济活动是一个动态的复杂系统，小样本数据量和有限测度维度，难以全面描述创新的本质和经济活动的复杂性。

因此，在过去的研究中，我们在处理大尺度的一般规律和微尺度场景时常常感到“数不从心”。进入数据驱动创新的时代，数据的规模和实时性有极大提升，算法和算力也显著改进，使我们有可能揭示和发现数据间隐藏的复杂的关联。

这里举一个例子。当前的经济政策特别强调要解决“信心和预期”问题，这涉及到的就不只是可观察到的显性变量，还涉及对人的心理、意识、情绪这些因素的感知，和因素间互动关系的判断。在以往的经济社会分析中，这种问题是非常难以获得数据进行定量研究的。现在对多模态数据特别是文本数据的处理，提供了很多和经济社会相关的情绪、预期等实时数据，支持对这类问题进行更接近“真实过程”的分析研究。

这是清华大学公共管理学院孟丽君老师的博士后研究报告，这项研究非常有意思，她在好几年前就开始了这个研究，那时候叫“基于机器学习算法与情感的分析”。她想研究什么问题呢？我们知道，大量的外宣投入在报纸、电视等媒介上，我们只能确认是否投放成功，但无法确定受众是否真正看了。例如，一部电视剧可以通过点击量来确认观看情况，但受众是否因为宣传而认同了内容，这是另一个问题。为了解决这个问题，孟教授使用爬虫技术收集外部评论数据，即“我看了电视，好不好看我总会有个回应”。拿到评论数据后，她把评论数据分为几个类别，例如“我知道有这个东西”“我了解它是谁的”“我喜欢”“我不喜欢”等等。她的研究结果非常有趣，她把接受方的反应分成了“知道、了解、喜欢”等等几个层次。例如，“我知道了这是一个武打剧”属于“认识”，“我知道这个武打是中国的武术”属于“认知”，而“我特别想到中国去学它，认为中华文化非常优秀”则属于“认同”。所以这种情绪文本分析是要基于对很多评论数据的分析，而不是说基于有限的观众数量、播放数量和出售数量等这类数据的分析。所以这种情感认同的数据分析，在对复杂经济社会问题的分析中将会非常有用，这离不开数据驱动的科学研究，包括要在社会科学研究领域取得进展。

同时，我们也面临着一些挑战。这些挑战主要体现在长期的、全局性影响上。我讲一个大家今天都谈得到、也谈得比较多的问题：进入智能时代，大企业或者大的平台很可能会变得非常有优势，这会不会带来市场的垄断和影响社会福利呢？这是一个大家比较关注的问题，因此我将通过一个例子来说明。

大家如果关注或者研究大模型的问题，就会了解“Scaling Law”的概念，即规模越大，优势越明显。传统上讲的规模报酬，是在实体经济发展中，规模超过了一个临界点的时候，就会变成边际报酬递减，即产出增长的比例会低于投入增长的比例。数字时代，这种情况会好转，因为数据的可复用特征，它的边际报酬有可能在相当的范围内都是递增的。智能时代，就不仅仅是一个规模报酬递增的特点了，会出现所谓的“涌现”效应。这意味着一旦达到某种规模，就会新生出来一种能力，这种能力是后来者完全不可企及的，所以它的规模效应变得特别突出，这种情况可能会引发一些问题。

下面是两个“Scaling”模型。左边的模型表明，在相同的参数量下，大模型会得到更优化的结果。右边这个模型想说，在同样的参数量下，大模型通过迭代优化得到更优化结果所用的步骤更少。总体而言，大模型表现更为出色。然而，效果不仅仅止于此。一旦超过一个阈值，大模型新生出来的认知、理解和解决问题的能力，是小模型完全没有的，并不是一个你多我少、你先我快的情况，是一种跳跃式的发展。这种发展带来了大平台的优势，促使人们追求更大规模的模型，从而进一步强化大企业的优势。大平台自己形成了一个反馈机制：规模越大，产业链越长，用户规模越广，获得的数据反馈能力也越强。这种机制使得大平台的优势不断扩大。

另外，现在的大平台由于规模大、资金多、数据好，而数据本身又是一个推动创新发现新规律的基本要素，所以大模型有非常大的优势。这些平台不仅将科学家的研究成果产业化，它们自身也在进行大量基础性研究。所以大平台都表示，“清华的教授经常到我（平台企业）这儿来，结合平台积累的数据来做相关研究”。

大平台的优势目前不仅仅局限于一些应用化的研究，还体现在发明专利领域。以数字经济的三大领域为例：自动驾驶、渲染引擎和虚拟现实，在这中间，发明专利的前多少位，很少能见到高校了，在国外早已经是这样了，在国内这个趋势也出现了。

当前的问题在于，大企业的规模优势可能带来的创新能力，是否能抵消规模过大带来的问题。尽管这一点尚未确定，但我们必须考虑，如果资源过于集中于大企业，可能会对中小企业的发展、就业和福利分配产生影响，这可能是个问题。以往的市场机制通常能够解决由于规模扩大会导致的问题。例如，在软件时代，微软（蓝线所示）由于其产品的可复制性长期占据市场主导地位，但随着开源系统安卓（黄线所示）的出现，仅用了几年时间，安卓的安装量就超过了微软。这表明市场本身有能力应对大者越大、强者越强所导致的垄断和收入分配问题。然而，在数字时代，情况可能有所不同。我现在还不敢确认。我们较早前的通用大模型和后来的开源大模型，看上去前者进步更快，似乎在目前来看靠开源、靠市场自我较正的机制，好像还不够，因此，人文社会科学的学者必须积极探讨技术发展对社会、经济、收入分配和公平所带来的影响到底是什么。

最后，我的看法是这样的：和以往的创新范式相比，数字时代的创新在创新源泉、创新主体和创新组织各个层面都发生显著变化。数据成为重要的新创新源泉；大平台企业成为重要的新创新主体；而开源组织被视为必然趋势，因为它们需要更多的数据和连接。特别是大模型在规模有限的加持下，地位特别显著，在相当程度上决定着数字、数据时代的创新过程。这些特征在提升创新效率的同时，也带来了新的不确定性，有可能使市场结构和福利分配出现与当前所假定的“合理状态”不一致、不确定的变化。我无法断定这些变化一定会带来负面影响。所以，人文和社会科学领域的学者对此要保持持续的关注和深入的研究，以确保科技进步有益于人类福祉和社会公平。