我正在编写一种查找异常值并将它们与指示异常值类型的特殊符号一起打印给用户的方法。可以通过两种方式计算异常值:工程师方法或 Tukey 方法。该函数有两个参数:一列随机数的数据框和确定计算异常值的方法的选项值。该函数将返回一个数据框,其中包含两列异常值的值及其类型为符号(o 或 *)
当我调用该函数并要求它使用工程师的方法计算异常值时,它运行良好。但是,使用 Tukey 的方法会产生以下错误(0 列和 0 行的数据框)
以下是我的代码:
findOutliers<- function(numbers,option){
outlierM=c()
outlierE=c()
outlier=c()
typeM=c()
typeE=c()
type=c()
length=nrow(numbers)
print(numbers)
if(option=="eng"){
print("Engineer Methods")
numbersmean= as.numeric(sapply(numbers,mean))
numbersd= as.numeric(sapply(numbers,sd))
for(i in 1:length){
zscore= as.numeric((i-numbersmean)/numbersd)
if(zscore>2 & zscore<3){
#cat(zscore," ", "O","\n")
outlierM =c(outlierM,zscore)
typeM=c(typeM, "O")
}#end of if statment
else if(zscore>3){
#cat(zscore," ", "*", "\n")
outlierE =c(outlierE,zscore)
typeE=c(typeE, "*")
}#end of if statment
}#end of for loop
}#end of if statment
else if(option=="tukey"){
print("Tuckey's Methods")
sortedNumbers=numbers[order(numbers$Numbers), ]
IQR=IQR(sortedNumbers)
Q1=as.numeric(quantile(sortedNumbers,0.25))
Q3=as.numeric(quantile(sortedNumbers,0.75))
rangeM1=Q1 - (1.5 * IQR)
rangeM2=Q3 + (1.5 * IQR)
rangeE1=Q1 - (3 * IQR)
rangeE2=Q3 + (3 * IQR)
for(i in 1:length){
if(numbers[i,]<rangeM1|numbers[i,]>rangeM2){
outlierM=c(outlierM,numbers[i])
typeM=c(typeM, "O")
}#end of if statment
else if(numbers[i,]<rangeE1|numbers[i,]>rangeE2){
outlierE=c(outlierE, numbers[i])
typeE=c(typeE, "*")}
}# end of for loop
}#end of if statment
outlier= c(outlierM,outlierE)
type=c(typeM,typeE)
founOtliers<- data.frame(Outliers=outlier,Type=type)
return(founOtliers)
}#end of function
normalnumbers=rnorm(10)
randomNumbers<- data.frame(Numbers=normalnumbers)
findOutliers(randomNumbers,"eng")
findOutliers(randomNumbers,"tukey")