在大数据时代,人们不仅要处理海量的数据,同时还要对这些数据进行加工、传播、分析和分享。目前,实现这些形式比较好的方法就是大数据可视化。数据可视化是关于数据视觉表现的形式,如柱状图、饼状图、直方图、散点图、折线图等最基本的统计图表。由于这些原始统计图表只能呈现数据的基本统计信息,当面对复杂或大规模结构化、半结构化和非结构化数据时,大数据可视化的设计与编码就复杂得多了。因此,大数据可视化可以理解为数据量更加庞大、结构更加复杂的数据可视化。大数据的可视化侧重发现数据中蕴含的规律特征、洞察数据价值,呈现形式也多种多样。
大数据可视化呈现形式:背景数据的可视化
在许多情况下,仅有原始数据是不够的,因为数据没有价值,信息才有价值。
设计师马特·罗宾森和汤姆·维格勒沃斯用不同的圆珠笔和字体写“Sample”这个单词。因为不同字体使用墨水量不同,所以每支笔所剩的墨水也不同。于是产生了一幅很有趣味图,如图5.4所示。在这幅图中不再需要标注坐标系,因为不同的笔及其墨水含量已经包含了这个信息。
图5.4 马特·罗宾森和汤姆·维格勒沃斯字体测量可视化
实施大数据可视化需要考虑的问题
尽管大数据可视化展示方式多种多样,但当采用一项新技术时,需要采取一些有效方法。除了扎实地掌握数据外,还需要理解可视化目标、需求和受众。在机构准备实施数据可视化时,一般要考虑以下几方面的问题:
▶明确试图可视化的数据,包括数据量和基数(一列数据中不同值的个数);
▶确定需要可视化和传达的信息种类,如事务明细、累积聚合、比值比例等;
▶了解数据的受众,并领会他们如何处理可视化信息;
▶使用一种对受众来说最优、最简的可视化方案传达信息。
在明确数据属性、作为信息消费者的受众等相关问题后,就需要准备与大量数据打交道了。大数据给可视化带来新的挑战,4V(Volume、Velocity、Variety、Value)是必须要考虑的问题,而且数据产生的速度经常会比其被管理和分析的速度快。需要可视化的列的基数也是应该考虑的重要因素,高基数意味着该列有大量不同值(如身份证号),而低基数则说明该列有大量重复值(如性别)。