大数据,顾名思义,就是大量的数据。
更专业来说,大数据,是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据软件工具能力范围的数据集合。
我们通常说:“量变引起质变”。大数据,就属于这种情况。
当数据体量增加到一定程度时,相关技术、理念、思维等,都随之发生质变,从而形成了一个新的领域,这就是大数据领域。
大数据,通过对海量数据的采集、分析和处理,寻找其中的特征和趋势,提炼更多的高价值信息,用于改善业务流程,或者辅助决策行为。
在大数据领域,我们经常看到一些关于 3V、4V、7V 的说法。这些 V,到底是什么意思呢?
今天这篇文章,小枣君就简单给大家介绍一下。
█ 3V、4V、7V 的来源
2001 年,美国麦塔集团分析师道格・兰尼(Doug Laney)在对大数据进行理论研究的时候,发现大数据具备三个特征。而这三个特征的英文单词,恰好又以字母“V”开头,即:
Volume(体量大)、Variety(多样化)、Velocity(速度快)。
后来,“3V”这个特征理论,逐渐被业界所接受,成为描述大数据特征的标准。
再后来,在“3V”的基础上,业界的一些专家们又陆续提出了“4V”、“5V”,甚至“7V”,包括:
Veracity(真实性)、Value(价值密度)、Variability(变异性)、Visualization(可视性)等。
所有这些 V,就变成了对大数据特征的新定义。
接下来,我们就分别看看,这些“V”具体是什么意思。
█ No.1 :Volume(体量大)
大数据,到底有多大?
我们传统 PC 和手机处理的数据,是 GB / TB 级别。例如,我们的硬盘,现在通常是 1TB / 2TB / 4TB 的容量。
TB、GB、MB、KB 的关系,大家应该都很熟悉了:
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
而大数据是什么级别呢?PB / EB 级别。
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
只是看这几个字母的话,貌似不是很直观。我来举个例子吧。
1TB,只需要一块硬盘可以存储。容量大约是 20 万张照片或 20 万首 MP3 音乐,或者是 20 万部电子书。
1PB,需要大约 2 个机柜的存储设备。容量大约是 2 亿张照片或 2 亿首 MP3 音乐。如果一个人不停地听这些音乐,可以听差不多两千年。
1EB,需要大约 2000 个机柜的存储设备。如果并排放这些机柜,可以连绵 1.2 公里那么长。如果摆放在机房里,需要 21 个标准篮球场那么大的机房,才能放得下。
阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近 EB 级。
EB 还不是最大的。目前全人类的数据量,是 ZB 级。
1 ZB = 1024 EB (ZB - zettabyte)
根据 IDC 的数据,在 2020 年,全球创建、捕获、复制和消耗的数据总量约为 64ZB。而到了 2025 年,全球数据总量可能会达到惊人的 163ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比 196 个鸟巢体育场还大。
人类社会的数据体量不仅大,增长速度也很快 —— 每年增长 50%。也就是说,每两年就会增长一倍多。
数据的增长,为什么会如此之快?
说到这里,就要回顾一下人类社会数据产生的三个重要阶段。
第一个阶段,是 1940-1990 年。
计算机和数据库被发明之后,数据管理的复杂度大大降低。各行各业开始产生了计算机数据,并记录在数据库中。这时的数据,以结构化数据为主(待会解释什么是结构化数据)。数据的产生方式,是被动的。
第二个阶段,是 1990-2010 年。
伴随着互联网的爆发,网络内容开始迅速增长,增加了很多的专业输出内容(PGC)。Web2.0 出现后,人们开始使用博客、facebook、youtube 这样的社交网络,输出大量的用户原创内容(UGC),从而主动产生了大量的数据。移动智能终端时代的到来,也加速了该阶段数据的产生。
第三个阶段,是 2010 年至今。
随着物联网的发展,各种各样的感知层节点(例如遍布各个角落的传感器、摄像头)开始自动产生大量的数据。企业的数字化转型,构建了大量的系统,沉淀和管理这些数据。人类的数据总量,再次跃升。
经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的爆炸式膨胀。
值得一提的是,如今,随着我们逐渐进入 AI 智能时代,很可能会迎来第四次数据暴增阶段。以 AIGC 为代表的智能机器生产内容,正在急剧增加。
█ No.2 :Variety(多样化)
多样性主要体现在三个方面 —— 数据来源多、数据类型多和数据之间关联性强。
数据来源多:
如前面所说,数据来源于不同的应用系统和设备。
例如,企业所产生的营销数据、业务系统数据、生产数据等,互联网行业所产生的社交内容数据、订单数据、用户数据等,政府部门所产生的社会治理数据、地理数据、经济数据等。
数据类型多:
数据又分为结构化数据、非结构化数据和半结构化数据。
结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。
而网页文章、邮件内容、图像、音频、视频等,都属于非结构化数据。
半结构化数据,介于结构化和非结构化数据之间。如 XML、JSON 等格式的数据,它们有一定的组织形式,但不如结构化数据那样严格。
目前,非结构化数据的占比是最高的。例如,在互联网领域里,非结构化数据的占比已经超过了 80%。
数据之间关联性强:
数据与数据之间,有一定的关联性,而且频繁交互。
例如,游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有很强的关联性。
█ No.3 :Velocity(速度快)
这个特性,指的是大数据的产生速度快、处理速度快、传播速度快。从数据的生成到消耗,时间窗口非常小。
数据产生速度快,体现在生产生活中的方方面面。
我们还是用数字来说话:
就在刚刚过去的这一分钟,数据世界里发生了什么?
Email:2000 万封被发出
Google:380 万次搜索请求被提交
Youtube:2100 分钟的视频被上传
Facebook:69.5 万条状态被更新
12306:9000 张车票被卖出
……
怎么样?是不是瞬息万变?
数据处理速度快,体现在大数据可以在实时分析和决策需求的推动下,通过实时处理、并行处理等方式,快速对所产生的数据进行处理。
这就要求大数据系统具备高并发、低延迟的能力。举例来说,大数据所采用的流式处理技术,能够在数据不断产生的同时进行实时处理,确保系统能够及时获取并利用最新的信息。
数据传播速度快,体现在大数据与以往的档案、广播、报纸等传统数据载体不同。大数据的交换和传播,是通过互联网等方式实现的,远比传统媒介信息交换的传播速度快。
█ No.4 :Veracity(真实性)
数据很多,但也要真实才行。
大数据的真实性,指的是数据的质量和可信度。
在大数据环境中,由于数据来源广泛且多样,就会导致容易出现错误、冗余和不一致的数据,进而影响到最终分析的准确性和可靠性。
确保大数据的真实性,需要采用数据清洗、元数据管理、数据治理等手段。
此外,随着技术的发展,越来越多的技术工具和服务被开发出来,用于对大数据真实性的管理和优化。例如数据验证工具、自动化的数据清理流程、先进的统计方法用于检测异常值等。
█ No.5 :Value(价值密度)
大数据的数据量很大,但随之带来的,就是价值密度很低。数据中真正有价值的,只是其中的很少一部分。
例如通过监控视频寻找犯罪分子的相貌,也许数十 TB 的视频文件,真正有价值的,只有几秒钟。
例如,2014 年美国波士顿爆炸案,现场调取了 10TB 的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。这张照片的价值,毋庸置疑。
大数据中包含很多低价值的信息,而且,信息碎片化的情况严重。因此,需要通过深度分析和挖掘,才能发现有用的内容。
数据挖掘、机器学习和人工智能等技术,正在逐渐提升数据分析和挖掘的效率,帮助人们从低价值密度的数据中提取高价值的信息。
█ No.6 :Variability(变异性)
不要怕!这里的变异,并不是生化危机。
大数据的变异性,指的是数据在处理过程中可能发生变化的能力,也可以理解为数据的动态性、不确定性。
变异性包括几个方面:
数据分布的不均匀性。
大数据集合可能包含来自不同来源、不同时间、不同地点的数据,这使得数据的分布呈现出不均匀性。不同的子集,可能具有不同的统计性质。在数据分析和建模时,需要考虑这个因素。
数据的动态性。
大数据往往是动态变化的,尤其是实时场景(例如股价)。变化速度,也从以前的秒级,变成了现在的毫秒级,甚至更短。这就要求大数据系统和技术必须能够适应这个动态变化的特性。
数据质量的波动。
前面说了,大数据中可能包含大量的噪音、异常值和错误。这些负面因素,也可能随时间变化,导致数据质量出现明显波动。
环境因素的影响。
大数据的变异性,还可能受到环境因素的影响,如天气、地理位置、社会事件等。对于一些特殊场景的大数据应用,需要考虑这些外部因素可能导致的变化。
█ No.7 :可视性(Visualization)
这个大家应该比较熟悉。我们现在在很多的政府部门和企业,都会看到数据大屏,其实也就是可视性的一种体现。
大数据的可视性,是指利用图形化、图像化的方式,对大数据进行呈现。这种方式,可以更直观地展示数据的模式、趋势和关系,快速把握数据的关键特征。
可视化,能够帮助人们更好地理解和解释复杂的数据集,提高对信息的洞察力,促使更明智的决策。
除了观看之外,可视化也可以借助辅助工具,提供一些交互性功能。
例如,用户能够自由选择感兴趣的数据子集、调整视图参数,从而更灵活地进行数据探索。这有助于用户深入挖掘数据,找到其中的规律和异常。
█ 最后的话
好啦,以上就是大数据的 7V 特性。
当然了,这些特性定义,除了前几个以外,并没有一个官方的认可。如果你愿意,也可以再想一个 V,变成 8V。
作为一种全新的思维方式和商业模式,大数据正在改变我们的工作和生活。下一期,小枣君再和大家详细聊聊,大数据到底有哪些应用场景,能发挥什么样的作用和价值。
敬请关注!
—— The End ——
本文来自微信公众号:鲜枣课堂(ID:xzclasscom),作者:小枣君
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)