朱小黄专栏|数据真相:与胡本立先生关于数据的讨论

朱小黄专栏|数据真相:与胡本立先生关于数据的讨论
2024年09月19日 18:23 蒙格斯报告

来源:蒙格斯报告

目前在国内的数据热以及目前为止全球性主要经济机构都缺乏对数据本质的底层逻辑理解。如何建立新的,基于科学的,对数据理解和运用的讨论框架,是亟需厘清的关键。

我们认为数据是人类文明的基础载体。传统的对数据的认识和运用,计量模型和技术,不足以使数据扮演更加重要的角色,我们讨论的这几个新的维度可能是数据获取新价值之门的钥匙,讨论的目的是促进整个数据的治理运用从技术引领转型到人本引领。这需要各方面专家学者投入精力作出研判,也需要国家数据局和中央银行、经济统计分析机构从战略高度来衡量轻重。

最近一年多,笔者和胡本立先生(世界银行原首席技术官、国际数据管理协会中国区原主席)数次见面或电话就数据问题作了深入讨论。我们认为目前在国内的数据热以及目前为止全球性主要经济机构都缺乏对数据本质的底层逻辑理解。基本上把数据问题当作技术问题和数学模型问题来建立治理和运用体系。如何建立新的,基于科学的,对数据理解和运用的讨论框架,是亟需厘清的关键。

从人本出发,深入理解什么是数据是非常必要的。这是因为数据越来越作为人类文明科技成果和社会治理基础以及经济要素在发挥功能性和资源性作用。

我们认为,一个是越来越复杂的网络,一个是网络上的人和代表人的“Agents”(代理者),二者不可分,也是互动的。最后是通过人产生需被人理解的“数据”,包括了人的自然语言、度量衡下的物理化学数学等自然科学知识,在经济金融领域,如希勒说的,数据表现为各种叙事和观念。这些都应该得到更好的理解和有更好的模型表示。

我们讨论了几个新的理解数据的维度,期望能作为数据治理和运用的新的逻辑基础,以改善目前数据技术化的局限性。也希望这些新维度成为拟议中的国际研讨会的可批判和研究的提纲。

维度一人与数据的关系

胡本立早年就提出了在人与数据之间关系及数据由人产生并存在主观偏差。(胡本立《北大金融评论》2021年第9期发表的《以人为中心的数据观》)。文章指出,应从人与数据互动的基本科学机制和过程这一角度来定义“数据”,数据是人能感知的物理信号。人不但产生大量数据,同时也有意识和无意识地受到各种数据的影响,这是数据需要治理的基础性原因。

在讨论数据管理的交流中,我们都感觉到,许多每天都在与数据打交道的专家并不认为自己在做数据和数据管理,而认为数据是一门与网络结合的技术,由技术部门负责。另外,近年来人们关于数据的讨论,大多都涉及带有“数据”的复合名词,如“数据经济”“数据金融”“智能数据”“数据资产”“数据安全”“数据治理”“数据质量”“数据要素”等,但人们却很少讨论数据究竟是什么。

要对数据究竟是什么有进一步的理解,一是需要考虑人与数据的相互作用,二是基本理解这是怎样的科学过程。人与数据是一个不断循环的关系:人在产生大量数据的同时实际上也在被数据所影响。虽然我们尚未了解人与数据互动中的全部细节,尤其是脑内认知过程的部分,但对互动的基本过程还是较为清晰的。但我们平时所研究和运用数据的体系是人的因素缺位的体系,无法真正理解数据与人的复杂关系,对于数据的采集运用和期望值都会脱离本源,流俗表层。

胡本立作为生物物理学专业人士,有一定跨学科和跨行业的经历,包括物理学、生物物理学、计算机科学、经济、金融和管理学,他曾经描绘人脑的运行:“如人脑系统,由于人脑的记忆、思维和推理功能以及意识作用,它的输入—输出反应特性极为复杂。人脑可以利用过去的信息(记忆)和未来的信息(推理)以及当时的输入信息和环境作用,作出各种复杂反应。从时间角度看,这种反应可以是实时反应、滞后反应甚至是超前反应;从反应类型看,可能是真反应,也可能是假反应,甚至没有反应。所以,人的行为绝不是什么简单的‘条件反射’,它的输入—输出特性随时间而变化。实际上,人脑有1012个神经元,还有同样多的胶质细胞,它们之间的相互作用又远比一个电子开关要复杂得多,所以美国IBM公司研究所的克莱门蒂(E.Clementi)曾说,人脑像是由1012台每秒运算10亿次的巨型计算机关联而成的大计算网络!”

无限的物理世界映射输入到人脑中本来就是有限的,人的认知能力也是有限的,抛开历史数据的传承遗失,即使现实世界的物理信号能最大限度被纳入人大脑,经过上述复杂动态而且不确定性的人脑运行,最后输出的所谓数据已经面目模糊了。不理解这一点就无法真正理解数据。

维度二数据的不同认知和运用

哲学经济学等人文学科因为内涵丰富,言不可及,更需要厘清其数据特质。当科学发现到更高程度时,许多人认为科学家的尽头是哲学或神学。其实还可以进一步说:科学的尽头是数据。数据的背后才是玄学。谁能想到爱因斯坦能说出“不是所有的有价值的东西都可以被数,也不是所有被数的东西都有价值”这样深刻的经济学认知呢。

但是在经济学家和其他科学研究顶端,科学家们对数据的作用和认识却有着极大差异,这个也使人类对数据的认识有些模糊或分歧。

诺贝尔经济学奖获得者哈耶克根植于亚当·斯密,是相信市场自发能力的,相信市场看不见的手。市场是在无序的竞争和博弈中达成最优交易。数据、模型和计量可能会干扰市场的无形之手。那么市场的数据和各种数据资源对哈耶克来说意味着什么呢?

而另一位诺贝尔奖获得者席勒对人的行为数据进行分析整理建构经济模型,并据此行为经济学获得诺贝尔奖经济学奖。那么席勒关于心理账户的结论来源于什么样的数据基础和结构呢?而行为经济学则是对行为数据的独特运用而成功。行为金融学表明,人们为买房,跑了37%的楼盘就可以决策了。因为后面的跑路并不能带来新的更好选择机会。

从哈耶克和席勒两种经济观来看,其实在顶级思想家的观念中,数据的性质与作用是有很大差异的。这使我们观察数据时的思想框架更为复杂。

以爱因斯坦、诺贝尔等为代表的物理学化学的实验方法完全依靠实验数据,他们通过掌握数据(知识),获得数据,吸收知识。这是对待数据的一种方式。大师各有各的数据观,而且也可能其光环掩饰了他们对数据认识的局限。自然科学家则更多在技术层面、数学层面认知和使用数据。

费曼说:“从不试着反驳自己的信念是一种尤其危险的自欺行为。”

维度三在数据研究与处理中引入人的因素

数据本身不是数据技术,也不是数据科学,数据是客观存在的各种物理信号。数据技术和数据科学等,人对数据的需求或机器对数据的处理,都需要标准建设的过程,而这是人的群体对某领域的认知达成共识的行为过程,要以人为中心构建数据定义、认知、运用标准。但人们往往在讨论标准,定义或讨论某个实体数据时,(实际上人总是在这个过程中),不论是表达、观察、思考还是交流,人的因素没有被直接引入,几乎没有考虑过人的因素对事物和相关数据的影响。事实上这会影响到数据的质量和算力效率。

因此,实际数据的运用和计算要考量人与数据之间输入输出产生的偏差,通过数学的方法进行调整,尽量减少数据的不确定性和主观性对人的行为的失真影响。构建细致的、达成共识的调整偏差的系数,提高数据质量和运用效率。

维度四数据的不确定性

关于数据的不确定性是一项有价值的理论成果,(朱小黄《中国银行业》杂志2023年第2期上发表的《不确定性与数据重构》)讲清了世界的本质是不确定性的。所以数据反映的是世界的不确定性,而数据本身具有的不确定性反过来也影响人的行为。

著名物理学家理查·P·费曼指出:“在物理学中,真相很少是完全清楚的,而在人类事务中当然普遍如此。因此,没有被不确定性包围的东西就不可能是真相。”。不确定性就包含在数据中,人类只能冲破数据迷雾才能获得有限的真相。

所以实际数据运用中应该引入数据不确定性观念,按照不确定性原理对数据进行分类重构处理。为了解决这些问题,首先需要对数据按照不确定性「分类」,可以按照不同的属性将数据分为偶然性数据和必然性数据、历史数据和边际数据、自然数据和行为数据等;其次,需要对各类数据「区别化处理」——例如,我们发现历史数据不是越长越好、偶然性数据是预测的最大障碍,因此,重点是要将偶然性数据剔除、将历史数据按时间分段后加权处理,从而降低数据的不确定性、提升数据的质量。

任何预判未来和计量都绕不过数据重构。

维度五数据的主观性与客观性

保罗·斯坦迪什(PaulStandish)(伦敦大学教授)在一篇文章中指出数据通常被看作是研究的基础,是进行教育咨询的必备要素。然而该观点值得质疑,我们为什么要用数据,数据是怎样得出的?很多研究者在得出数据后都不知该如何运用数据,测试的结果无法确切指示研究下一步该做什么,特别是在社会科学中这种情况更为普遍。鉴于此,我们更需理解数据。这篇文章论述了客观性与主观性问题,以及与客观性和主观性紧密关联的事实与价值的问题。精神或多或少地与肉体相分离,存有一种不同于价值领域的事实领域,这两种观点为当代的(不仅是社会科学中使用的)客观性与主观性概念奠定了基础。然而,这两种观点现在都受到贬抑。所以需要重新梳理客观性与主观性、事实与价值的本质。

人脑输出的数据也是客观存在,也是物理信息,但在观念上同时表现为主观认知意识。数据治理是指这两方面的综合配置,而不纯粹是技术问题。数据的运用要通过数学方法对冲主观性带来的负面影响。在不确定性研究中,我们也发现不确定性甚至风险都具有极强的主观性,需要在运用中对主观数据和客观数据加以区分。

比较典型的是宏观经济分析的周期理论,本质是对历史数据(客观数据)进行排列后得到的曲线进行相似性比较,把相似性数据看作周期(主观数据),企图以此预测未来会出现相似现象。但这只是主观划分,并非客观存在,本质上是主观臆断。

维度六脑内脑外(内生性和外生性)是一个很有意义的认识数据的维度

人脑输出以及人的行为数据是脑外数据。尽管也是主观产物,但输出后应该是一种客观存在。目前的所谓智能化主要是模拟脑外数据,而脑内的客观映射和脑内的意识活动的物理化学过程是脑内数据的产生过程,这个过程很难破解,这在逻辑上行不通,因为人破解自己是不可能完全实现的。除非上帝帮忙。

脑内脑外差异很大。古人已经懂得这个道理。老子说:道可道,非常道。意即能说出来的不是道。脑内所思,其实是无法彻底表达出来成为脑外的数据的。我们要接受这个现实,尽量调整脑外数据对人类心理和行为的影响。

胡本立提到:研究人类基本上就是研究人与数据是如何互动的,由此类推,研究智能就是研究机器与数据的互动。LLM或ChatGPT是处理机器与数据的互动。

他说得切中要害。所以在我看来,智能化的进程可能分化为两条路径:一条是模拟人的行为数据,使机器的行为看起来很像人的行为。另一条是模拟人脑神经元的思想过程,机器学习到人脑思考的物理化学生物过程,在某种程度上具有类人的思维能力。也可以看成脑内脑外两条路径。但目前尚未有鼓舞人心的进展。

在前一条路径上其实不用担心人类被机器反杀(新的异化)。Matthew Hutson在一篇文章中说道:最新一波AI严重依赖机器学习,这种学习会让软件自行识别出数据中的模式,而无需预先给出整理或分类信息的规则。这些模式对人类来说是无法解释的。最先进的机器学习系统用的都是神经网络:受大脑结构启发的软件。它们模拟多层的神经元,从一层将信息传递给另一层。和人类大脑中的一样,这些神经网络会随着学习强化或弱化神经元的连接,但是很难看出来连接为什么受影响。因此,研究者们经常会说Al是个“黑匣子”,其内部的运作完全是个谜。但笔者和胡本立都认为:这两条路径虽然可以融合,但毕竟底层逻辑不同,说这个“黑匣子”完全是个谜,有点夸大其词,或故弄玄虚。

维度七沟通的定义条件:怎么解决“绕”的问题

我们就此反复讨论。

“绕”就是人类以语言解释语言却又无法跳出语言的定义不清使交流限于语言数据之间的循环往复,构成了逻辑上的循环困境。

“绕”不是一个纯科学问题,看起来是数据中的逻辑循环,但与我们常遇到的逻辑循环和重复定义不同。这是一个数据上定义不清楚导致的问题。以数据解释数据,这是一个巨大的理论陷阱,也是一个巨大的实务难题。需要从数据治理源头上解决问题。

另一种“绕”是语言和宏观数据常常被用来刻意掩饰某些真相,这不是运用数据的初衷。事实上人类在相互沟通中经常遇到的逻辑环,不断地运用语言、度量单位、数据标准尽量达成共识:对各种数据给予更广泛共识的定义。尽管如此,人们之间,经济组织之间,地区经济体之间仍在广泛存在的数据歧义中艰难合作。这也是一种绕。

数据来源于人的认知,数据语言或其他数据以数据或文字说明定义数据和语言,的确是兜圈子,但它源于人类认识到能力的有限性。这是人类无法摆脱的困境。也不宜企图期待这些能改变。

应该说,国际机构,包括国际货币基金,世行,BIS,美联储和欧盟等,都还没把人与数据的关系理解清楚或理解对。

格林斯潘总是故意使用模糊的语言,当新闻媒体发出不同的报道时,他说我成功了。所以“绕”的问题是一个伴随着人类文明进程的逐渐模糊和不断清晰的进程

维度八数据资产入表的问题

数据在经济生活中的确扮演重要角色。对政府来说是公共服务产品的基础。其价值依附于网络和需求之中,对企业来说,数据价值通过数据网络、传播技术设备得以实现,用于产品的部分即计入产品成本。很难会有纯粹数据可消费产品。这也是数据在新维度上要解决的问题。

所以并不存在数据资料产及其入表的问题,而是要搞清楚数据在什么条件下能被运用而实现商业价值,或成为政府公共产品的重要基础。

维度九自然语言与数据治理

胡本立认为当自然语言成为或被理解为数据,数据治理将包括法律表述的治理。笔者在一篇讲话稿中提到:既然法律是约束人的行为的准则,那么立法的依据就是人类的行为模式的价值判断。判断的方法模型都来源于行为数据。当某一类行为在模型计量上显示伤害到某种程度比例的人群权益时,法律约束或司法救济的立法程序就应该被激发。所以法律界也需要深入理解数据、智能和数学计量模型。不能简单地用文科理科,自然科学社会科学这样的二元划分来认识。

所以自然语言是最基础的数据。当我们希望把数据治理中的难点理顺时,或许首先要从自然语言的文字表式,语义、定义、交流、翻译标准,思想表达方式与范式等入手。

我们知道,语言的含糊与不确定性不完全一样,都给如何达成共识带来挑战。

维度十数据的实与虚

数据的虚与实是需要思考的另一个重大命题。有个有趣的话题讨论可以参考:胡本立先生与韦森教授的一次交流中谈到货币本质问题。

韦森教授,您好,近来读到您关于“货币的本质再反思”很有意思的文章,但文中提到马汀“到今天,在世界上绝大多数国家中,硬币和纸币只是各国货币总量的一个很小的部分,因而大多数国家的货币不再具有实物形态了”,我很不同意这个观点或说法。事实是货币总是有它的“实物形态”,一直有,现在仍有,只是它现在是磁盘中的一段(可能比纸更不值钱)。至于货币的物理存在形态从金属,到纸,到磁盘的变化所导致人对货币认知上的变化(如因为人不再能直接看到或接触到它),但那是另一回事或概念,这与如何理解货币本质是否有关我不很清楚。如您愿意和有些时间,我很愿意和希望与您有更进一步的讨论。

笔者认为胡本立写的关于货币这段话,是一个典型的数据的虚与实的关系问题。虚与实需要加以区别,但又是同一事物的两个方面。

值得深入讨论是度量衡设计下产生的时间与空间,其实也是人类对客观世界的主观认知的表达,长度高度宽度在地球的确是实的存在,但在宇宙范围内是虚的东西。GDP这样的指标在人类社会是实的存在,但在历史的时空中并无什么巨大意义。货币总量在一定条件下代表了价值,但在上帝的视角下,物理世界的可利用价值绝非如此简单。

笔者和胡本立都认为数据是人类文明的基础载体。传统的对数据的认识和运用,计量模型和技术,不足以使数据扮演更加重要的角色,我们讨论的这几个新的维度可能是数据获取新价值之门的钥匙,讨论的目的是促进整个数据的治理运用从技术引领转型到人本引领。这需要各方面专家学者投入精力作出研判,也需要国家数据局和中央银行、经济统计分析机构从战略高度来衡量轻重。

我们相信在新的底层逻辑上的数据结构与治理会比传统模式更好一些,有一点进步都是值得去做的。

我们也希望针对上述十个新的数据维度和逻辑在全球范围内展开讨论,也欢迎全球各专业领域的学术机构、学者和各种实务领域的专家提出批评意见并展开交流。

特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的,请于上述内容发布后的30天内进行。

海量资讯、精准解读,尽在新浪财经APP

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部