大数据的5V定义:Volume、Velocity、Variety、Value、Veracity

2020年8月1日10:55:02大数据的5V定义:Volume、Velocity、Variety、Value、Veracity已关闭评论

大数据的5V定义:Volume、Velocity、Variety、Value、Veracity

现阶段,大数据领域比较通用的大数据定义基于图1-1所示的5V,其中每个V的具体定义如下。

大数据的5V定义:Volume、Velocity、Variety、Value、Veracity

图1-1 大数据5V定义示意图

(1)Volume:数据量大,即采集、存储和计算的数据量都非常大。真正大数据的起始计量单位往往是TB(1 024GB)、PB(1 024TB)。

(2)Velocity:数据增长速度快,处理速度也快,时效性要求高。比如,搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

(3)Variety:种类和来源多样化。种类上包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等,数据的多类型对数据处理能力提出了更高的要求。数据可以由传感器等自动收集,也可以由人类手工记录。

(4)Value:数据价值密度相对较低。随着互联网及物联网的广泛应用,信息感知无处不在,信息量大,但价值密度较低。如何结合业务逻辑并通过强大的机器算法来挖掘数据的价值,是大数据时代最需要解决的问题。

(5)Veracity:数据的准确性和可信赖度高,即数据的质量高。数据本身如果是虚假的,那么它就失去了存在的意义,因为任何通过虚假数据得出的结论都可能是错误的,甚至是相反的。

 

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。