问题标签 [outliers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1186 浏览

r - 如何从向量列表中删除异常值?

我有这个向量列表:

我想使用 Hampel 方法从每个单独的向量中删除异常值。

我发现这样做的一种方法是:

但我想知道是否可以直接在 lapply 中声明一个新函数而不必这样做。lapply 将每个单独的向量发送到函数repoutliers,您知道如何在 lapply 中直接对这些单独的向量进行操作吗?假设我用函数“replace”交换repoutliers,我可以通过调用replace参数中的各个向量来做同样的事情(lapply(X,FUN,...); ... =替换参数)。

简而言之:如何操作单个向量 lapply 发送到函数 winthin lapply ?

0 投票
1 回答
5583 浏览

matlab - 在 Matlab 中使用 LibSVM 的一类 SVM - 概念

也许这是一个简单的问题,但我想确保我理解一类 SVM 的 LibSVM 实现的概念基础,以及我所做的是否是允许的。

在这种情况下,我使用一类 SVM 进行异常值检测和删除。这在更大的时间序列预测模型的上下文中用作数据预处理步骤。也就是说,我有一个 Y 向量(这是我们试图预测的数量并且是连续的,而不是类标签)和一个 X 矩阵(用于预测的连续特征)。由于我想在预处理步骤的早期检测数据中的异常值,因此我尚未标准化或滞后 X 矩阵以用于预测,或者就此而言去趋势/去除噪声/或以其他方式处理 Y 向量(已经缩放在 [-1,1] 内)。我的主要问题是这样建模一类 SVM 是否正确(使用 libSVM):

由此产生的模型确实产生了与我预期的结果有些相符的性能(99% 左右的预测准确度,这意味着 1% 的观察结果是异常值)。但我之所以问,是因为在关于一类 SVM 的其他问题中,人们似乎在我使用 Y 的地方使用他们的 X 矩阵。感谢您的帮助。

0 投票
1 回答
741 浏览

weka - 如何在 WEKA 中使用 k-means 聚类获得异常值实例?

我在 WEKA 中使用了 SimpleKmeans 类,所以我也做集群实例。但是我在获取异常实例时遇到了问题。

我想,这个类中的每个集群都有一个中心(或质心)和一个半径,所以我可以通过检查所有集群的圆及其质心和半径来找到异常值。虽然我找不到任何获得集群半径的变量或函数。

现在,您知道在 WEKA 的 SimpleKmeans 类中查找异常值的任何其他方法吗?或者任何显示每个集群半径的变量?

0 投票
1 回答
198 浏览

r - 列出数据框中每个变量的异常值

我有一个包含 8 个变量的数据框(x1、x2 .. x8)

我想使用以下方法获取箱线图的异常值:

我想要的输出是让数据框列出每个变量的异常值。如下:

谢谢你的支持,

0 投票
2 回答
6651 浏览

r - 等效于 ggplot2 的箱线图中的“范围”

我试图让 ggplot2 的 geom_boxplot 的胡须覆盖异常值。异常值实际上不会显示为点,因为它们被箱线图包围。

如果我使用标准的“箱线图”,我将使用:

其中n将是一个很大的数字,因此箱线图的胡须不会显示异常值,而是会延伸以覆盖异常值。

ggplot2如何做到这一点?我试过了:

注意:我不想使用以下方法丢弃异常值:

0 投票
0 回答
180 浏览

r - 识别列表子集中的异常值

请原谅我不准确的术语。例如,我将一个数据帧拆分为我想要的子集,但根据 Rstudio,但我的结果是一个列表。我对这些术语感到困惑,所以我无法在 SO 中搜索答案。

我的问题是如何应用函数从列表的子集中删除异常值?我在数据框中的数据(见 2):

我使用此代码将数据拆分为以 5 作为标识符中断的子集。

以see2$'1' 为例,我想测试每组see2$'#' 的异常值。我怎么做?非常感谢您的帮助。

0 投票
9 回答
18128 浏览

java - 如何检测 ArrayList 中的异常值

我试图想出一些代码,让我可以搜索我的 ArrayList 并检测“好值”的公共范围之外的任何值。

示例:100 105 102 13 104 22 101

我如何编写代码来检测(在这种情况下)13 和 22 不属于 100 左右的“好值”?

0 投票
1 回答
2320 浏览

r - R中多列数据框的异常值检测

我有一个包含 18 列和大约 12000 行的数据框。我想找到前 17 列的异常值,并将结果与​​第 18 列进行比较。第 18 列是一个因素,包含可用作异常值指标的数据。

我的数据框是 ufo,我删除了第 18 列,如下所示:

然后将 3 个 non0numeric 列转换为数值:

然后使用以下命令进行异常值检测:

但是 outlier.scores 的所有元素都是 NA !!!

我在这段代码中有什么错误吗?

是否有另一种方法可以找到此类数据框的异常值?

我的所有代码:

dput(head(ufo2)) 的输出是:

0 投票
1 回答
2068 浏览

r - 更改抖动箱线图中所有异常值的形状

我环顾网络,发现了很多关于抖动和改变异常值形状的东西,但似乎找不到关于这个特定问题的任何信息。

我想要一个带有抖动数据点的黑白箱线图 - 我可以做到。

我也想改变异常值的形状。尽管有多个案例得分为 4,但其中一个变为空心圆圈。

我假设如果某个特定级别的一个数据点被认为是异常值,那么其余的也将被视为异常值。

这是一个编码错误还是我在统计课程中错过了什么?如果这是一个编码的事情,我如何让它们都是空心的?

显然我的“声誉”需要为 10 才能获得附加图像!我希望没有它是有意义的

这是我的代码:

0 投票
2 回答
645 浏览

database - 如何在 ELKI 中使用索引结构?

这些是来自http://elki.dbs.ifi.lmu.de/的引号:

“本质上,我们将抽象距离查询绑定到数据库,然后对这个距离进行最近邻搜索。此时,ELKI 会自动选择最合适的 kNN 查询类。如果存在适合我们距离函数的索引(不是每一个索引都能加速每一个距离!),这里会自动使用。”

“getKNNForDBID 方法可能归结为缓慢的线性扫描,但是当数据库有合适的索引时,会使用索引查询。然后算法可以在 O(nk log n) 甚至 O(nk) 时间内运行。”

问题是:ELKI 选择运行索引查询的依据是什么?

什么是:“当数据库有适当的索引时”,我如何保证?

关于“运行”方法签名的另一个不相关的问题,为什么有 3 个签名而不是只有 1 个?它们之间有什么区别,确定使用哪个签名的标准是什么?