我正在处理一个大的时间序列数据,它看起来像:
ProcesID ProcessName StartDate EndDate Duration
10 httpd 1/1/2012 1/2/1012 12 Hours
11 ftp 1/1/2012 1/2/1012 10 Hours
12 snmp 1/1/2012 1/2/1012 5 Hours
13 email 1/1/2012 1/2/1012 2 Hours
14 java 1/1/2012 1/2/1012 5 Hours
15 perl 1/1/2012 1/2/1012 7 Hours
20 php 1/1/2012 1/2/1012 6 Hours
unique( x$ProcessName
) 的数量大于 500。我无法绘制每个ProcessName
. 我想选择anamolies并绘制它们。
我确实尝试了样本:
y<-x[sample(nrow(x), 50, prob = NULL),]
ggplot(subset(x, ProcessName %in% y$ProcessName),
aes(StartDate, Duration, group=ProcessName)) + geom_point()
我不确定sample
执行此分析是否是正确的选择?有没有人做过类似的事情来从一个仅针对异常的人口创建图表?