大数据的 3V、4V、7V，到底是什么意思？|大数据_新浪科技

大数据，顾名思义，就是大量的数据。

更专业来说，大数据，是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据软件工具能力范围的数据集合。

我们通常说：“量变引起质变”。大数据，就属于这种情况。

当数据体量增加到一定程度时，相关技术、理念、思维等，都随之发生质变，从而形成了一个新的领域，这就是大数据领域。

大数据，通过对海量数据的采集、分析和处理，寻找其中的特征和趋势，提炼更多的高价值信息，用于改善业务流程，或者辅助决策行为。

在大数据领域，我们经常看到一些关于 3V、4V、7V 的说法。这些 V，到底是什么意思呢？

今天这篇文章，小枣君就简单给大家介绍一下。

█ 3V、4V、7V 的来源

2001 年，美国麦塔集团分析师道格・兰尼（Doug Laney）在对大数据进行理论研究的时候，发现大数据具备三个特征。而这三个特征的英文单词，恰好又以字母“V”开头，即：

Volume（体量大）、Variety（多样化）、Velocity（速度快）。

后来，“3V”这个特征理论，逐渐被业界所接受，成为描述大数据特征的标准。

再后来，在“3V”的基础上，业界的一些专家们又陆续提出了“4V”、“5V”，甚至“7V”，包括：

Veracity（真实性）、Value（价值密度）、Variability（变异性）、Visualization（可视性）等。

所有这些 V，就变成了对大数据特征的新定义。

接下来，我们就分别看看，这些“V”具体是什么意思。

█ No.1 ：Volume（体量大）

大数据，到底有多大？

我们传统 PC 和手机处理的数据，是 GB / TB 级别。例如，我们的硬盘，现在通常是 1TB / 2TB / 4TB 的容量。

TB、GB、MB、KB 的关系，大家应该都很熟悉了：

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

而大数据是什么级别呢？PB / EB 级别。

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

只是看这几个字母的话，貌似不是很直观。我来举个例子吧。

1TB，只需要一块硬盘可以存储。容量大约是 20 万张照片或 20 万首 MP3 音乐，或者是 20 万部电子书。

1PB，需要大约 2 个机柜的存储设备。容量大约是 2 亿张照片或 2 亿首 MP3 音乐。如果一个人不停地听这些音乐，可以听差不多两千年。

1EB，需要大约 2000 个机柜的存储设备。如果并排放这些机柜，可以连绵 1.2 公里那么长。如果摆放在机房里，需要 21 个标准篮球场那么大的机房，才能放得下。

阿里、百度、腾讯这样的互联网巨头，数据量据说已经接近 EB 级。

数据中心

EB 还不是最大的。目前全人类的数据量，是 ZB 级。

1 ZB = 1024 EB (ZB - zettabyte)

根据 IDC 的数据，在 2020 年，全球创建、捕获、复制和消耗的数据总量约为 64ZB。而到了 2025 年，全球数据总量可能会达到惊人的 163ZB。如果建一个机房来存储这些数据，那么，这个机房的面积将比 196 个鸟巢体育场还大。

人类社会的数据体量不仅大，增长速度也很快 —— 每年增长 50%。也就是说，每两年就会增长一倍多。

数据的增长，为什么会如此之快？

说到这里，就要回顾一下人类社会数据产生的三个重要阶段。

第一个阶段，是 1940-1990 年。

计算机和数据库被发明之后，数据管理的复杂度大大降低。各行各业开始产生了计算机数据，并记录在数据库中。这时的数据，以结构化数据为主（待会解释什么是结构化数据）。数据的产生方式，是被动的。

第二个阶段，是 1990-2010 年。

伴随着互联网的爆发，网络内容开始迅速增长，增加了很多的专业输出内容（PGC）。Web2.0 出现后，人们开始使用博客、facebook、youtube 这样的社交网络，输出大量的用户原创内容（UGC），从而主动产生了大量的数据。移动智能终端时代的到来，也加速了该阶段数据的产生。

第三个阶段，是 2010 年至今。

随着物联网的发展，各种各样的感知层节点（例如遍布各个角落的传感器、摄像头）开始自动产生大量的数据。企业的数字化转型，构建了大量的系统，沉淀和管理这些数据。人类的数据总量，再次跃升。

经过了“被动-主动-自动”这三个阶段的发展，最终导致了人类数据总量的爆炸式膨胀。

值得一提的是，如今，随着我们逐渐进入 AI 智能时代，很可能会迎来第四次数据暴增阶段。以 AIGC 为代表的智能机器生产内容，正在急剧增加。

█ No.2 ：Variety（多样化）

多样性主要体现在三个方面 —— 数据来源多、数据类型多和数据之间关联性强。

数据来源多：

如前面所说，数据来源于不同的应用系统和设备。

例如，企业所产生的营销数据、业务系统数据、生产数据等，互联网行业所产生的社交内容数据、订单数据、用户数据等，政府部门所产生的社会治理数据、地理数据、经济数据等。

数据类型多：

数据又分为结构化数据、非结构化数据和半结构化数据。

结构化数据，是指可以用预先定义的数据模型表述，或者，可以存入关系型数据库的数据。例如，一个班级所有人的年龄、一个超市所有商品的价格，这些都是结构化数据。

结构化数据

而网页文章、邮件内容、图像、音频、视频等，都属于非结构化数据。

半结构化数据，介于结构化和非结构化数据之间。如 XML、JSON 等格式的数据，它们有一定的组织形式，但不如结构化数据那样严格。

目前，非结构化数据的占比是最高的。例如，在互联网领域里，非结构化数据的占比已经超过了 80%。

数据之间关联性强：

数据与数据之间，有一定的关联性，而且频繁交互。

例如，游客在旅游途中上传的照片和日志，就与游客的位置、行程等信息有很强的关联性。

█ No.3 ：Velocity（速度快）

这个特性，指的是大数据的产生速度快、处理速度快、传播速度快。从数据的生成到消耗，时间窗口非常小。

数据产生速度快，体现在生产生活中的方方面面。

我们还是用数字来说话：

就在刚刚过去的这一分钟，数据世界里发生了什么？

Email：2000 万封被发出

Google：380 万次搜索请求被提交

Youtube：2100 分钟的视频被上传

Facebook：69.5 万条状态被更新

12306：9000 张车票被卖出

……

怎么样？是不是瞬息万变？

数据处理速度快，体现在大数据可以在实时分析和决策需求的推动下，通过实时处理、并行处理等方式，快速对所产生的数据进行处理。

这就要求大数据系统具备高并发、低延迟的能力。举例来说，大数据所采用的流式处理技术，能够在数据不断产生的同时进行实时处理，确保系统能够及时获取并利用最新的信息。

数据传播速度快，体现在大数据与以往的档案、广播、报纸等传统数据载体不同。大数据的交换和传播，是通过互联网等方式实现的，远比传统媒介信息交换的传播速度快。

█ No.4 ：Veracity（真实性）

数据很多，但也要真实才行。

大数据的真实性，指的是数据的质量和可信度。

在大数据环境中，由于数据来源广泛且多样，就会导致容易出现错误、冗余和不一致的数据，进而影响到最终分析的准确性和可靠性。

确保大数据的真实性，需要采用数据清洗、元数据管理、数据治理等手段。

此外，随着技术的发展，越来越多的技术工具和服务被开发出来，用于对大数据真实性的管理和优化。例如数据验证工具、自动化的数据清理流程、先进的统计方法用于检测异常值等。

█ No.5 ：Value（价值密度）

大数据的数据量很大，但随之带来的，就是价值密度很低。数据中真正有价值的，只是其中的很少一部分。

例如通过监控视频寻找犯罪分子的相貌，也许数十 TB 的视频文件，真正有价值的，只有几秒钟。

例如，2014 年美国波士顿爆炸案，现场调取了 10TB 的监控数据（包括移动基站的通讯记录，附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料），最终找到了嫌疑犯的一张照片。这张照片的价值，毋庸置疑。

大数据中包含很多低价值的信息，而且，信息碎片化的情况严重。因此，需要通过深度分析和挖掘，才能发现有用的内容。

数据挖掘、机器学习和人工智能等技术，正在逐渐提升数据分析和挖掘的效率，帮助人们从低价值密度的数据中提取高价值的信息。

█ No.6 ：Variability（变异性）

不要怕！这里的变异，并不是生化危机。

大数据的变异性，指的是数据在处理过程中可能发生变化的能力，也可以理解为数据的动态性、不确定性。

变异性包括几个方面：

数据分布的不均匀性。

大数据集合可能包含来自不同来源、不同时间、不同地点的数据，这使得数据的分布呈现出不均匀性。不同的子集，可能具有不同的统计性质。在数据分析和建模时，需要考虑这个因素。

数据的动态性。

大数据往往是动态变化的，尤其是实时场景（例如股价）。变化速度，也从以前的秒级，变成了现在的毫秒级，甚至更短。这就要求大数据系统和技术必须能够适应这个动态变化的特性。

数据质量的波动。

前面说了，大数据中可能包含大量的噪音、异常值和错误。这些负面因素，也可能随时间变化，导致数据质量出现明显波动。

环境因素的影响。

大数据的变异性，还可能受到环境因素的影响，如天气、地理位置、社会事件等。对于一些特殊场景的大数据应用，需要考虑这些外部因素可能导致的变化。

█ No.7 ：可视性（Visualization）

这个大家应该比较熟悉。我们现在在很多的政府部门和企业，都会看到数据大屏，其实也就是可视性的一种体现。

大数据的可视性，是指利用图形化、图像化的方式，对大数据进行呈现。这种方式，可以更直观地展示数据的模式、趋势和关系，快速把握数据的关键特征。

可视化，能够帮助人们更好地理解和解释复杂的数据集，提高对信息的洞察力，促使更明智的决策。

除了观看之外，可视化也可以借助辅助工具，提供一些交互性功能。

例如，用户能够自由选择感兴趣的数据子集、调整视图参数，从而更灵活地进行数据探索。这有助于用户深入挖掘数据，找到其中的规律和异常。

█ 最后的话

好啦，以上就是大数据的 7V 特性。

当然了，这些特性定义，除了前几个以外，并没有一个官方的认可。如果你愿意，也可以再想一个 V，变成 8V。

作为一种全新的思维方式和商业模式，大数据正在改变我们的工作和生活。下一期，小枣君再和大家详细聊聊，大数据到底有哪些应用场景，能发挥什么样的作用和价值。

敬请关注！

—— The End ——

本文来自微信公众号：鲜枣课堂（ID：xzclasscom），作者：小枣君

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

关键词 : 大数据

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

大数据的 3V、4V、7V，到底是什么意思？

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

来电聊

专题

官方微博

公众号