大数据的4V+4V特点
从数据的表现形式看,业界普遍认为大数据具有如下的“4V”特点 。
(1)海量(Volume):数据体量巨大,从TB级别跃升到PB级别。
(2)多样(Variety):数据类型繁多,如网络日志、视频、图片、地理位置信息等。
(3)高速(Velocity):处理速度快,需实时分析,这也和传统的数据挖掘技术有着本质的不同。
(4)价值(Value):价值密度低,商业价值高,合理利用低密度价值的数据并对其进行正确、准确的分析,将会带来巨大的价值。
上述“4V”特点描述了大数据区别于以往部分抽样的“小数据”的主要方面。然而,实践是大数据最终价值的体现,从实际应用和大数据处理的复杂性看,我们认为大数据还具有如下新的“4V”特点。
(1) 变化性(Variable)
在不同的场景、不同的研究目标下,数据的结构和意思可能会发生变化,因此,在实际研究中要考虑具体的上下文场景。
(2)真实性(Veracity)
获取真实、可靠的数据,是保证分析结果准确、有效的前提,只有通过真实而准确的数据才能获取真正有意义的结果。
(3)波动性(Volatility)
由于数据本身含有噪声以及分析流程不规范,导致采用不同的算法或手段会得到变化的或有差异的分析结果。
(4) 可视化(Visualization)
在大数据环境下,通过数据可视化可以更加直观地阐释数据的意义,帮助理解数据,解释结果。