mutate——修改列/增加列 summarize——数据聚合运算 它们都可以与 group_by——分组 结合使用,以改变数据操作的作用域: 是作用于整个数据框,还是作用于数据框的每个分组。 上述函数组合使用,可以实现各种数据操作,不管是简单的,还是复杂的,都可以很好处理。 这些函数的相同之处: 第1个参数是数据框,便于管道操作,...
单个函数应用于分组数据的多个列,进行批量计算。当采用summarise_at、summarize_all、summarise_if函数时,如果需要对计算列进行重命名,计算函数需要采用list的形式,且计算列名的模式会是原有列名+后缀的形式。 # 普通方式tbl_df%>%group_by(label)%>%summarise(mean1=mean(var1),mean2=mean(var2))# 计算列指定...
单个函数应用于分组数据的多个列,进行批量计算。当采用summarise_at、summarize_all、summarise_if函数时,如果需要对计算列进行重命名,计算函数需要采用list的形式,且计算列名的模式会是原有列名+后缀的形式。 # 普通方式 tbl_df %>% group_by(label) %>% summarise(mean1=mean(var1),mean2=mean(var2)) # ...
df %>% mutate(sum = Sepal.Length + Sepal.Width) summarize(): 对数据进行汇总计算。 # 计算每个种类(Species)的Sepal.Length的平均值 df %>% summarize(avg_Sepal_Length = mean(Sepal.Length)) group_by(): 根据指定变量对数据进行分组。 # 根据Species变量对数据进行分组,并计算每个分组内的平均Sepal....
all_pop_n <- data %>% group_by(location, age_group) %>% # 分组变量 summarize(pop= sum(time/365)) # 这里的time是生存时间,原始的单位是天,因此对time/365的求和就是人年数 如下:结果的数据集pop就是人年数 #(3)计算分子:分城乡、分年龄组的死亡数 all_death_n<-data %>% filter(data$deat...
summarize()和summarize_all()用来计算指定统计量 group_by用来指定分组 library(dplyr) library(carData)...
> tipsByDay <- ddply(tips, "day", plyr::summarize, + tip.mean=mean(tip), tip.sd=sd(tip), + Length=NROW(tip), + tfrac=qt(p=.90, df=Length-1), + Lower=tip.mean - tfrac*tip.sd/sqrt(Length), + Upper=tip.mean + tfrac*tip.sd/sqrt(Length)) ...
64. feature.prob <- ddply(feature.all, .(class.name), summarize, prob_fea = prod(prob)) 65. #prod是连乘函数 66. #取出类别的概率 67. class.all <- join(feature.prob, pc, by = "class.name", type = "inner") 68. #输出结果 69. ddply(class.all, .(class.name), mutate,...
QryOpenDate=as_date(mdy_hms(QryOpenDate)))%>%# use data.table for faster group summarize: ...
ddply(Data,.(user_id,item_id),summarize,liulan=sum(liulan))——split-apply-combine的一体化函数;.(user_id,item_id)作为每行的一对标识ID(因子),前面的“.”号省略数据框名称;summrize是一个函数fun;liulan是一个变量,最后生成的数据框只有user_id,item_id,liulan三列。详情参见例子R语言利器之ddply ...