简而言之,我进行了一项满意度调查,要求被调查者以从 1 到 7 的满意度进行回答。
这是数据集中两个变量之间的散点图(抖动)的示例(我正在研究 R):
https://drive.google.com/uc?export=download&id=0Bx2Sns2vaI9ycm1tV2pNSWUxQXc
因此,我正在研究的数据集是由我想要对其进行异常值分析的序数数据形成的。
对于此类数据,您会建议什么作为最佳异常值分析方法,以及如何在 R 上实施?
非常感谢你,
氘
简而言之,我进行了一项满意度调查,要求被调查者以从 1 到 7 的满意度进行回答。
这是数据集中两个变量之间的散点图(抖动)的示例(我正在研究 R):
https://drive.google.com/uc?export=download&id=0Bx2Sns2vaI9ycm1tV2pNSWUxQXc
因此,我正在研究的数据集是由我想要对其进行异常值分析的序数数据形成的。
对于此类数据,您会建议什么作为最佳异常值分析方法,以及如何在 R 上实施?
非常感谢你,
氘
您的数据如下所示:
x = rep(1:7, c(3, 4,17, 21, 48, 118, 93))
y = c(
rep(1:7,c(1,2,0,0,0,0,0)),
rep(1:7,c(2,0,1,1,0,0,0)),
rep(1:7,c(10,3,2,1,0,0,1)),
rep(1:7,c(15,3,1,1,1,0,0)),
rep(1:7,c(20,10,2,10,3,2,1)),
rep(1:7,c(40,20,20,30,3,4,1)),
rep(1:7,c(50,25,10,5,3,0,0))
)
剧情:
library(car)
sp(x,y, jitter = list(x=0.8, y=0.8), smoother=F, reg.line = F)
如果您只想知道给定值是否是数据中的异常值(即单变量异常值分析),您可以使用:
library(outliers)
grubbs.test(x)
或者简单地使用boxplot
哪些值被绘制为异常值:
boxplot(x, plot=F)$out
如果您需要多变量异常值,可以使用该mvoutlier
包(请参阅函数?chisq.plot
和?pcout
):
library(mvoutlier)
pcout(x=data.frame(x,y))