举例说明大数据的复杂性与多样性
(1)数据的复杂性
复杂数据在可以“成熟的”分析和可视化之前需要额外的准备工作。因此重要的是,通过了解数据的复杂程度及它在未来的复杂性趋向,来评估大数据/商业智能项目是否能够胜任这一任务。多重数据源通常意味着脏数据,或者遵循着不同的内部逻辑结构的、简单的多个数据集。为了确保数据源有统一的数据语言,数据必须被转换或整合到一个中央资源库。数据的复杂性表现为处理大数据或异构数据。
(2)数据的多样性
文本一直是非结构化数据的典型。早期的非结构化数据,在企业数据的语境里主要是文本,如电子邮件、文档和健康/医疗记录等。随着互联网和物联网的发展,又扩展到网页、社交媒体、感知数据,涵盖音频、图片、视频和模拟信号等,真正诠释了数据的多样性。
从另一个维度上看,数据的多样性又表现在数据来源和用途上。卫生保健数据大致有药理学科研数据,临床数据,个人行为和情感数据,以及就诊/索赔记录和开销数据4类。又如交通领域,北京市交通智能化分析平台数据源来自路网摄像头/传感器、地面公交、轨道交通、出租车,以及省际客运、旅游、化学危险品运输、停车和租车等运输行业,还有问卷调查和GIS数据。
例如,面对共享单车治理难题,几个车企都提出“大数据”管理思路,并认为将是未来管理的方向。在ofo广州总部,通过大数据管理可以清楚看到每一辆“小黄车”所在位置和编号、每个网格的车辆数量、区域车辆的活跃程度等,车辆数量随着活跃程度的增加,在屏幕上显示由绿色转成红色。