朱小黄：数据重构与数字化进程

2022年11月25日17:06 作者:朱小黄

　　文/意见领袖专栏作家朱小黄

　　在电脑、互联网、通讯技术等科技进步的过程中，人类生产和服务的发展也突飞猛进。20世纪初以来，我们大致可以观察到几个不同的阶段：从信息化与自动化，到数据化与智能化，再到目前的到大数据与数字化，都是信息技术发展的不同阶段，核心还是数据和数据运用。

　　在数字化转型的今天，如何认识和理解数字化，是向数字经济和数字化社会转型的关键。在专业认识层面上，各种观点和议论很多，笔者总觉得意犹未尽，希望再做一些深入的讨论。

　　一、数字化的含义

　　在数字化热潮中，我们听到的设想大都是20世纪六七十年代发达国家已经实现的信息化与自动化。无非把固化的生产流程和生产要素的配置通过后台电脑和软件进行信息处理，机器自动操作。随着互联网技术和IT技术的提升，这种信息处理的能力越来越强大，越来越具有智能的算法，但仍然长期处于自动化的阶段。

　　那么什么是数字化呢？随着大数据技术的发展，对生产和生活环境中的边际（实时）数据的处理能力，即算法和捕捉数据的能力也越来越强大，智能化程度（即机器模拟人脑的能力，机器运用知识和快速处理数据的能力）也大幅提高，那么社会就会逐步进⼊数字化阶段。到了这个阶段，人们对数据质量的要求（即科学性和运用的准确性、有效性的要求）也越来越高，传统的数据观和数据运用方式已经不能满足数字化时代机器对人脑模拟的要求。

　　数字化阶段的本质特征就是具备能够动态、实时、智能地捕捉相关数据并及时处理生产与生活场景中的微观变化，指挥机器进行同步调适，保持生产与生活场景良好状态的能力。包括相应的计算机技术、网络技术、通讯技术和一整套组织系统和运行规则。如果元宇宙是未来那数字化就是必由之路。

　　所以既不要把自动化误以为是数字化，也不要急于构建元宇宙，数字化阶段要做好这个阶段的事情，失去数字化的基础，会迷失未来的方向。

　　二、不确定性数据重构与数据治理

　　不确定性研究认为，世界的本质是不确定性的，而人类社会是⼀个偶然性社会。按照热力学熵增定律，宇宙客观世界是充满无序动力的，由此决定了不确定性的客观性和人类社会发展的偶然性特征。为了对抗无序和不确定性，人类发展了自己的文明，不确定性的分布状态也是多样化的，在变化比较缓慢，时间跨度比较长的领域（如风化和氧化），人类建立了科学知识和社会秩序等文明成果，以此减少熵增，建立相对稳定的环境和预期，以求生存发展。从这样的认识出发，我们发现到目前为止，所有的数据如同一团乱麻，还需要按照不确定性原理进行分类，才能更合理、有效地加以运用。

　　按照不确定性原理将数据分类重构大致可以做以下分类：

　　历史数据与边际数据。前者主要用于分析过往和预测未来，后者主要用于大数据技术条件下，实时现象的快速准确处置与反应以及智能化支撑。

　　自然数据和行为数据。前者是客观世界运行状况的纪录，后者是人类行为活动的纪录。前者中有的数据对人的行为有影响，有的没有影响，需要进行选择运用。后者中有的数据对未来有影响，有的没影响，同样需要选择运用。

　　可重复数据和不可重复数据，也称之为必然性数据和偶然性数据。前者来源于人类测量计算的科学成果，如物理、化学定律和地理测绘成果，这些数据都是可验证可重复利用的，另外也来源于人类社会秩序规范下的人类行为数据，由于秩序对人的行为的约束，大量的行为数据也是可重复，可预测，有一定必然性的数据。可重复数据往往可以预测未来可能发生类似事件的概率。后者是一次性发生的偶然事物的纪录，是不可重复不可验证的数据。可以运用于分析过往，但很难用于预测未来。有些在数学上称为离散分布的数据，即离散值，就是偶然性数据，很多计算场景下需要剔除。

　　原生数据衍生数据。前者直接反映了事物的原貌特点，后者是在前者基础上主观分析的产物。例如各种指数，各种对客户的评价评分，是经过抽象与人的主观判断的数据。在不同的运用场景中对这两类不同的数据需要赋予不同的权重。

　　模型变量因子的样本选择对模型的影响

　　任何经济预测模型或者计算函数的确定，都是在大量历史数据和边际数据中提取样本分析确定变量、因⼦，确定模型需要的变量。在数据未能按不确定性原理进行分类之前，因为数据中混杂大量不可重复的偶然性数据，对这些数据直接进行分析极有可能发生偏差和错误，影响模型的科学性和计量的准确性，这样的现状需要做根本性的改变。所以不确定性原理下的数据重构对经济模型的改进和完善也具有重大意义。

　　数据治理首先是数据的科学分类

　　数据治理更多地被赋予了安全性方面的意义，这是不全面的，更底层的问题还是数据的真实性、完整性、有效性问题。

　　历史数据浩如烟海，在社会、经济、法律、道德等方面如何有效运用，是数字化社会的重要问题。从法律上看，有数据产权制度、个人隐私信息保护等问题；从道德上看，有商业模式的选择如何有助于科技向善、守护伦理边界的问题；在经济上，数据治理主要是发挥数据生产要素效率的问题。科学的分类和符合客观属性的数据运用是数据治理的核心问题。

　　三、边际数据与智能化

　　实时发生并被捕捉收集的数据是智能化的基础。大数据技术被广泛应用以来，人类海量数据的收集能力和计算能力越来越强大，在不确定性原理中，边际数据与历史数据⼀样，也有大量偶然性数据应该被忽略，以节省算力，这就有赖于算法上智能程度的提升。真正的智能化，即机器模拟人的思维的能力，体现在对边际数据的收集、计算并快速作出反应，所以捕捉收集到有用的边际数据、据以进行智能计算，发出反应，是有效智能，经济智能的必要条件。因此，在正确分类基础上对边际数据的选择、收集和计算，是智能化重要环节，也是数字化的核心技术。

　　四、数字化的人文考量

　　科技的创新进步本来就是对传统生产与生活方式的挑战，但正确处理科技运用与传统人文价值观念之间冲突却是关系到科技运用价值的关隘问题。在数字化转型的过程中，有两个人文立场的考量应该有所思考。

　　一是科技运用同传统文化的冲突。

　　科技进步与运用会带来新的生活方式，也会摧毁⼀部分旧的生活方式。科技带来效率和更多样的选择。例如，电子感光数码相机的产生，使得胶片相机和显影剂定影剂、暗房冲洗等传统照相技术和电影、摄影等技术逐渐消失，但人文观念传统价值却是人类能够不断繁衍生息的价值支撑。数码相机在人文观念上仍然是胶片相机的继承和发展，柯达胶卷没有了，摄影、电影、电视更丰富。所以任何新技术总是在创新与传统之间形成平衡，使传统人文价值得以传承。

　　科技向善的口号是一种值得肯定的平衡科技与人文传统的价值取向。科技创新和科技运用中关照不同群体，尤其是弱势群体的需求，是科学家和科技企业的重要文化元素和社会责任。

　　从不确定性⻆度看，自由是自然无序和偶然性社会的本质属性，而约束自己的自由放纵和遵守秩序的自律，则是人类文明不断进步的原因，是对抗无序熵增和不确定性的唯一途径。人类文明不断发展只是需要在自由和秩序，自律与放纵之间找到平衡点。

　　二是科技创新要守住伦理隔离边界。

　　科技创新伦理隔离，实际上是对人类无限好奇心的约束。从可行性上来说，随着人类对宇宙的不断探索、知识的不断积累，科技创新几乎看不到边界，各种异想天开或新颖奇特的主意或念头，都可能依托科技创新找到实现的路径。“不怕做不到，就怕想不到”，从科技创新发展史来看，只要能想到，几乎都能做到，顶多时间有长有短而已。科技创新的伦理隔离，就是对科技创新的无限扩张提出符合人类自身整体利益的应有边界，其本质是对人类无限的好奇心的约束。

　　伦理隔离的必要性。伦理到底是什么？伦理是自然法则的某种表述。伦理不是人类的理想，而是自然的铁律。意识当然有物质基础，就像人的意志与肉体。但几乎也可以肯定，上帝在意识和物质之间一定设计了某种隔离，就像动物生殖隔离⼀样，不会允许它们之间互相操纵，骡子和狮虎兽是无法繁殖后代的。人的意志无法控制自己的身体，身体的成长、丰富与衰老，即生老病死，只遵循自然法则，这就是造物主的隔离。那些企图研究其关联并试图加以操纵，企图长生不老的人最终会失败。生物学家可以通过动、植物杂交获得动植物遗传上的某些优势，但动、植物杂交也不能产生新的可传承的品种，每年都要制种。这就是说存在某种自然所设定的边界，试图突破边界是没意义的，反而增加沉没成本。转基因、无性繁殖等都触及伦理，而伦理的本质，就是自然的力量所设定的各种边界。科技创新活动亦是如此。

　　在数字化转型这样一场浩大的科技运用活动中，如何使技术向善，关照不同社会群体的需求，守住一些科技运用的隔离边界，既是科技界，也是经济界、法律界人士不可忘却的重要观念。

　　(本文作者介绍：原中信银行行长)

责任编辑：宋源珺

　　新浪财经意见领袖专栏文章均为作者个人观点，不代表新浪财经的立场和观点。

　　欢迎关注官方微信“意见领袖”，阅读更多精彩文章。点击微信界面右上角的+号，选择“添加朋友”，输入意见领袖的微信号“kopleader”即可，也可以扫描下方二维码添加关注。意见领袖将为您提供财经专业领域的专业分析。

保存 | 打印 | 关闭

朱小黄：数据重构与数字化进程

微博推荐

作者简介：朱小黄

最新文章

热文排行