大数据的特征:全体性、混杂性、相关关系

2020年8月1日10:49:35大数据的特征:全体性、混杂性、相关关系已关闭评论

大数据的特征:全体性、混杂性、相关关系

虽然“大数据”这一个词汇已经诞生了近40年,但是目前为止并没有一个明确的定义。维克托·迈尔·舍恩伯格在《大数据时代》一书中提到了大数据应该具备以下3种特征。

(1)不是随机样本,而是全体数据。

过去,因为记录、存储和分析数据的工具不够好,为了让分析变得简单,人们只能收集或者抽取尽量少的数据进行分析。如今,技术条件已经有了非常大的提高,虽然人类可以处理的数据依然是有限的,也永远是有限的,但是处理的数据量已经大大增加,而且未来会越来越多。在条件允许的情况下,使用全体数据往往能够得到一个更加准确、更接近真实的结果。

(2)不是精确性,而是混杂性。

执迷于精确性是信息缺乏时代和模拟时代的产物。大约只有5%的数据是结构化且能适用于传统数据库的,如果不接受混乱,剩下95%的非结构化数据就无法被利用。所以只有接受不精确性,才能从数据中获取更大的价值。需要特别注意的是,不精确性并非大数据固有的,它只是用来测量、记录和交流数据的一个缺陷。因为拥有更大的数据量所能带来的商业利益远远超过增加一点的精确性,所以通常不会通过大量增加成本提升数据的精确性。

(3)不是因果关系,而是相关关系。

因果关系强调原因和结果必须同时具有必然的联系,即二者的关系属于引起和被引起的关系。而相关关系的核心是量化两个数据值之间的数理关系,相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。