经过开发者长期的努力,R语言已经扩展成为使用便利、功能完备的开发环境,能够支持包括数据存储、清洗、建模和可视化在内的完整工作流程。下面根据数据的类型、适用数据的可视化图形,以及用于数据可视化的R语言应用包等,对R语言数据可视化的方法和流程进行简单总结。
1. 数值型数据
如果数据全部是数值型,根据变量数量的不同,所使用的可视化方法也会有差异。在通常情况下,对1个变量会使用直方图、密度曲线等进行数据可视化;对2个变量通常会使用箱线图、散点图、2D密度曲线等进行数据可视化;对3个或更多个变量,可以使用树状图、热力图、矩阵散点图等进行数据可视化。数值型数据的可视化方法和常用的R语言应用包总结为如图1-9所示的结构图。
图1-9 数值型数据的可视化方法结构图
2. 分类型数据
分类型数据是按照现象的某种属性对其进行分类或分组而得到的反映事物类型的数据,又称为定类数据。根据分类变量的多少,通常可以采用不同的可视化方法。在通常情况下,对单个变量可以使用条形图、词云图、饼图等进行数据可视化;对多个变量可以使用旭日图、雷达图、桑基图、热力图等进行数据可视化。分类数据的可视化方法和常用的R语言应用包总结为图1-10所示的结构图。
图1-10 分类型数据的可视化方法结构图
3. 数值型和分类型数据
若同时包含数值型和分类型数据,可以使用箱线图、棒棒糖图、甜甜圈图、相关系数图、矩阵散点图、树形图等进行数据可视化。针对数据的不同组合情况,采用的可视化方法或使用的R语言应用包总结为图1-11所示的结构图。
图1-11 数值型和分类型数据的可视化方法结构图
4. 其他类型的数据
地图数据、网络数据、时序数据等都可以视为其他类型的数据,针对这些类型的数据采用的可视化方法总结为图1-12所示的结构图。
针对不同类型的数据,可以使用不同的可视化图形进行数据分析,而这些图形都可以找到对应的一个或多个R语言应用包进行绘制。由此可见,使用R语言进行数据可视化的功能强大且方法便捷。