R语言如何处理样本中的缺失值
实际工作中,数据集很少是完整的,许多情况下样本中都会包括若干缺失值NA,这在进行数据分析和挖掘时比较麻烦。R语言通过na.fail和na.omit函数可以很好地处理样本中的缺失值。
下面来看如下相关示例:
data<-c(1,2,NA,2,4,2,10,NA,9) data.na.omit<-na.omit(data) data.na.omit [1] 1 2 2 4 2 10 9 attr(,"na.action") [1] 3 8 attr(,"class") [1] "omit" attr(data.na.omit,"na.action") [1] 3 8 attr(,"class") [1] "omit"
其中,函数na.fail和 na.omit 不仅可以应用于向量,也可以应用于矩阵和数据框。另外还可以使用!x方式方便地删除NA。例如:
a<-c(1,2,3,NA,NA,2,NA,5) a[!is.na(a)] [1] 1 2 3 2 5
其中,is.na用于判断向量内的元素是否为NA,返回结果应该是:
向量FALSE FALSE FALSE TRUE TRUE FALSE TRUE FALSE
即a内元素为NA,其对应的下标元素是TRUE,反之是FALSE。!x是取非逻辑运算符,!is.na(a)表示a内元素不为NA,其对应的下标元素是TRUE,反之是FALSE。通过a[!is.na(a)]进行索引后,即可取出a内不为NA的元素,将其过滤。