大师网-带你快速走向大师之路 解决你在学习过程中的疑惑,带你快速进入大师之门。节省时间,提升效率

R中的数据去重与缺失值处理

在R语言中,涉及到数据去重与缺失值处理的函数一共有下面这么几个:

  • unique

  • distinct

  • intersect

  • union

  • duplicated #布尔判断

  • is.na()/!is.na() #缺/非缺失值

  • na.rm=TRUE/FALSE #移除缺失值

  • na.omit(lc) #忽略缺失值

  • complete.cases() #完整值

unique函数通常用于去重:

unique(mydata$B)                  #对含有重复值得向量进行去重
dplyr::distinct(mydata,B)         #对含有重复值字段的数据框去重

dplyr中提供了两个函数可以执行交集与补集操作:

duplicated(mydata$B)              #返回重复对象的布尔值
mydata[!duplicated(mydata$B),]    #剔除重复值,仅保留唯一值