1

简而言之,我进行了一项满意度调查,要求被调查者以从 1 到 7 的满意度进行回答。

这是数据集中两个变量之间的散点图(抖动)的示例(我正在研究 R):

在此处输入图像描述

https://drive.google.com/uc?export=download&id=0Bx2Sns2vaI9ycm1tV2pNSWUxQXc

因此,我正在研究的数据集是由我想要对其进行异常值分析的序数数据形成的。

对于此类数据,您会建议什么作为最佳异常值分析方法,以及如何在 R 上实施?

非常感谢你,

4

1 回答 1

1

您的数据如下所示:

x = rep(1:7, c(3, 4,17, 21, 48, 118, 93)) 
y = c(
    rep(1:7,c(1,2,0,0,0,0,0)),
    rep(1:7,c(2,0,1,1,0,0,0)),
    rep(1:7,c(10,3,2,1,0,0,1)),
    rep(1:7,c(15,3,1,1,1,0,0)),
    rep(1:7,c(20,10,2,10,3,2,1)),
    rep(1:7,c(40,20,20,30,3,4,1)),
    rep(1:7,c(50,25,10,5,3,0,0))
)

剧情:

library(car)
sp(x,y, jitter = list(x=0.8, y=0.8), smoother=F, reg.line = F)

在此处输入图像描述

如果您只想知道给定值是否是数据中的异常值(即单变量异常值分析),您可以使用:

library(outliers)
grubbs.test(x)

或者简单地使用boxplot哪些值被绘制为异常值:

boxplot(x, plot=F)$out

如果您需要多变量异常值,可以使用该mvoutlier包(请参阅函数?chisq.plot?pcout):

library(mvoutlier)
pcout(x=data.frame(x,y))
于 2014-03-20T21:26:23.523 回答