R语言如何处理样本中的缺失值

2020年10月31日16:35:26已关闭评论

R语言如何处理样本中的缺失值

实际工作中，数据集很少是完整的，许多情况下样本中都会包括若干缺失值NA，这在进行数据分析和挖掘时比较麻烦。R语言通过na.fail和na.omit函数可以很好地处理样本中的缺失值。

下面来看如下相关示例：

data<-c(1,2,NA,2,4,2,10,NA,9)
data.na.omit<-na.omit(data)
data.na.omit
    [1]  1  2  2  4  2  10  9
    attr(,"na.action")
    [1] 3 8
    attr(,"class")
    [1] "omit"
attr(data.na.omit,"na.action")
    [1] 3 8
    attr(,"class")
    [1] "omit"

其中，函数na.fail和 na.omit 不仅可以应用于向量，也可以应用于矩阵和数据框。另外还可以使用!x方式方便地删除NA。例如：

a<-c(1,2,3,NA,NA,2,NA,5)
a[!is.na(a)]
    [1] 1 2 3 2 5

其中，is.na用于判断向量内的元素是否为NA，返回结果应该是：

向量FALSE FALSE FALSE TRUE TRUE FALSE TRUE FALSE

即a内元素为NA，其对应的下标元素是TRUE，反之是FALSE。！x是取非逻辑运算符，!is.na（a）表示a内元素不为NA，其对应的下标元素是TRUE，反之是FALSE。通过a[!is.na（a）]进行索引后，即可取出a内不为NA的元素，将其过滤。

登录 找回密码

登录找回密码