0

我正在编写一种查找异常值并将它们与指示异常值类型的特殊符号一起打印给用户的方法。可以通过两种方式计算异常值:工程师方法或 Tukey 方法。该函数有两个参数:一列随机数的数据框和确定计算异常值的方法的选项值。该函数将返回一个数据框,其中包含两列异常值的值及其类型为符号(o 或 *)

当我调用该函数并要求它使用工程师的方法计算异常值时,它运行良好。但是,使用 Tukey 的方法会产生以下错误(0 列和 0 行的数据框)

以下是我的代码:

findOutliers<- function(numbers,option){
outlierM=c()
outlierE=c()
outlier=c()
typeM=c()
typeE=c()
type=c()
length=nrow(numbers)
print(numbers)


if(option=="eng"){
print("Engineer Methods")
numbersmean= as.numeric(sapply(numbers,mean)) 
numbersd= as.numeric(sapply(numbers,sd))


for(i in 1:length){
zscore= as.numeric((i-numbersmean)/numbersd)
if(zscore>2 & zscore<3){
#cat(zscore," ", "O","\n")
outlierM =c(outlierM,zscore)
typeM=c(typeM, "O")
}#end of if statment

else if(zscore>3){
#cat(zscore," ", "*", "\n")
outlierE =c(outlierE,zscore)
typeE=c(typeE, "*")


}#end of if statment

}#end of for loop
}#end of if statment


else if(option=="tukey"){
print("Tuckey's Methods")
sortedNumbers=numbers[order(numbers$Numbers), ]
IQR=IQR(sortedNumbers)
Q1=as.numeric(quantile(sortedNumbers,0.25))
Q3=as.numeric(quantile(sortedNumbers,0.75))
rangeM1=Q1 - (1.5 * IQR)
rangeM2=Q3 + (1.5 * IQR)
rangeE1=Q1 - (3 * IQR)
rangeE2=Q3 + (3 * IQR)

for(i in 1:length){
if(numbers[i,]<rangeM1|numbers[i,]>rangeM2){
outlierM=c(outlierM,numbers[i])
typeM=c(typeM, "O")
}#end of if statment

else if(numbers[i,]<rangeE1|numbers[i,]>rangeE2){
outlierE=c(outlierE, numbers[i])
typeE=c(typeE, "*")}

}# end of for loop 
}#end of if statment



outlier= c(outlierM,outlierE)
type=c(typeM,typeE)
founOtliers<- data.frame(Outliers=outlier,Type=type)
return(founOtliers)

}#end of function

normalnumbers=rnorm(10)
randomNumbers<- data.frame(Numbers=normalnumbers)
findOutliers(randomNumbers,"eng")
findOutliers(randomNumbers,"tukey")
4

1 回答 1

4

2 件事。首先,为了清楚起见,我建议缩进你的代码并尽可能使用空格。

if (x = 1) {
  print ('foo')
} else {
  print ('bar')
}

其次,更重要的是,您错误地使用了 if/else 语法(请参阅上面的示例)。来自?"if"

In particular, you should not have a newline between ‘}’ and
     ‘else’ to avoid a syntax error in entering a ‘if ... else’

但是,这不是您的代码中的问题。如果添加行

print (paste('first check', 
             numbers[i, ] < rangeM1 | numbers[i, ] > rangeM2))
print (paste('second check', 
             numbers[i, ] < rangeE1 | numbers[i, ] > rangeE2))

在你的第二个循环的顶部for,你会看到你从来没有满足任何一个if条件,因此你返回你的空data.frame......

一般来说,如果你使用if else if语法,我认为总是包含一个最终的else包罗万象是明智的,它可以提供一些有用的建议或默认输出。

于 2013-06-13T19:35:02.613 回答