我有一个这样的数据框:
Date Process Duration
1/1/2012 xnit 10
1/1/2012 xnit 15
1/1/2012 xnit 20
1/2/2012 telnet 80
1/2/2012 telnet 50
1/2/2012 telnet 40
8/1/2012 ftp 3
8/1/2012 ftp 11
8/1/2012 ftp 12
转换为 x<-data.table(x) 后:
我可以这样计算每项工作的平均值:
x<-x[, mean := mean(Duration), by = Process]
我喜欢将特定日期 Duration 的持续时间与平均值进行比较。我试过这个:
x<-x[, Aug1 := subset(x, Date==as.Date(c("2012-08-01")))$Duration, by = Process]
一旦我得到这个值,我将把 Aug1 列与每个进程的平均值进行比较,以查看异常值。但是,此命令需要很长时间才能完成。有一个更好的方法吗?