“outliers”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1186 浏览

r - 如何从向量列表中删除异常值？

我有这个向量列表：

我想使用 Hampel 方法从每个单独的向量中删除异常值。

我发现这样做的一种方法是：

但我想知道是否可以直接在 lapply 中声明一个新函数而不必这样做。lapply 将每个单独的向量发送到函数repoutliers，您知道如何在 lapply 中直接对这些单独的向量进行操作吗？假设我用函数“replace”交换repoutliers，我可以通过调用replace参数中的各个向量来做同样的事情（lapply（X，FUN，...）; ... =替换参数）。

简而言之：如何操作单个向量 lapply 发送到函数 winthin lapply ？

r lapply outliers

2013-07-25T17:22:57.037

0 投票

1 回答

5583 浏览

matlab - 在 Matlab 中使用 LibSVM 的一类 SVM - 概念

也许这是一个简单的问题，但我想确保我理解一类 SVM 的 LibSVM 实现的概念基础，以及我所做的是否是允许的。

在这种情况下，我使用一类 SVM 进行异常值检测和删除。这在更大的时间序列预测模型的上下文中用作数据预处理步骤。也就是说，我有一个 Y 向量（这是我们试图预测的数量并且是连续的，而不是类标签）和一个 X 矩阵（用于预测的连续特征）。由于我想在预处理步骤的早期检测数据中的异常值，因此我尚未标准化或滞后 X 矩阵以用于预测，或者就此而言去趋势/去除噪声/或以其他方式处理 Y 向量（已经缩放在 [-1,1] 内）。我的主要问题是这样建模一类 SVM 是否正确（使用 libSVM）：

由此产生的模型确实产生了与我预期的结果有些相符的性能（99% 左右的预测准确度，这意味着 1% 的观察结果是异常值）。但我之所以问，是因为在关于一类 SVM 的其他问题中，人们似乎在我使用 Y 的地方使用他们的 X 矩阵。感谢您的帮助。

matlab classification svm libsvm outliers

2013-07-31T13:03:16.553

0 投票

1 回答

741 浏览

weka - 如何在 WEKA 中使用 k-means 聚类获得异常值实例？

我在 WEKA 中使用了 SimpleKmeans 类，所以我也做集群实例。但是我在获取异常实例时遇到了问题。

我想，这个类中的每个集群都有一个中心（或质心）和一个半径，所以我可以通过检查所有集群的圆及其质心和半径来找到异常值。虽然我找不到任何获得集群半径的变量或函数。

现在，您知道在 WEKA 的 SimpleKmeans 类中查找异常值的任何其他方法吗？或者任何显示每个集群半径的变量？

weka k-means outliers

2013-08-02T22:19:16.780

0 投票

1 回答

198 浏览

r - 列出数据框中每个变量的异常值

我有一个包含 8 个变量的数据框（x1、x2 .. x8）

我想使用以下方法获取箱线图的异常值：

我想要的输出是让数据框列出每个变量的异常值。如下：

谢谢你的支持，

r dataframe boxplot outliers

2013-08-27T21:37:39.973

0 投票

2 回答

6651 浏览

r - 等效于 ggplot2 的箱线图中的“范围”

我试图让 ggplot2 的 geom_boxplot 的胡须覆盖异常值。异常值实际上不会显示为点，因为它们被箱线图包围。

如果我使用标准的“箱线图”，我将使用：

其中n将是一个很大的数字，因此箱线图的胡须不会显示异常值，而是会延伸以覆盖异常值。

ggplot2如何做到这一点？我试过了：

注意：我不想使用以下方法丢弃异常值：

r ggplot2 boxplot outliers

2013-09-03T14:40:34.043

0 投票

0 回答

180 浏览

r - 识别列表子集中的异常值

请原谅我不准确的术语。例如，我将一个数据帧拆分为我想要的子集，但根据 Rstudio，但我的结果是一个列表。我对这些术语感到困惑，所以我无法在 SO 中搜索答案。

我的问题是如何应用函数从列表的子集中删除异常值？我在数据框中的数据（见 2）：

我使用此代码将数据拆分为以 5 作为标识符中断的子集。

以see2$'1' 为例，我想测试每组see2$'#' 的异常值。我怎么做？非常感谢您的帮助。

r list split outliers

2013-09-13T02:50:21.920

0 投票

9 回答

18128 浏览

java - 如何检测 ArrayList 中的异常值

我试图想出一些代码，让我可以搜索我的 ArrayList 并检测“好值”的公共范围之外的任何值。

示例：100 105 102 13 104 22 101

我如何编写代码来检测（在这种情况下）13 和 22 不属于 100 左右的“好值”？

java arraylist outliers

2013-09-14T18:42:25.027

0 投票

1 回答

2320 浏览

r - R中多列数据框的异常值检测

我有一个包含 18 列和大约 12000 行的数据框。我想找到前 17 列的异常值，并将结果与第 18 列进行比较。第 18 列是一个因素，包含可用作异常值指标的数据。

我的数据框是 ufo，我删除了第 18 列，如下所示：

然后将 3 个 non0numeric 列转换为数值：

然后使用以下命令进行异常值检测：

但是 outlier.scores 的所有元素都是 NA ！！！

我在这段代码中有什么错误吗？

是否有另一种方法可以找到此类数据框的异常值？

我的所有代码：

dput(head(ufo2)) 的输出是：

r data-mining outliers

2013-10-02T15:06:01.883

0 投票

1 回答

2068 浏览

r - 更改抖动箱线图中所有异常值的形状

我环顾网络，发现了很多关于抖动和改变异常值形状的东西，但似乎找不到关于这个特定问题的任何信息。

我想要一个带有抖动数据点的黑白箱线图 - 我可以做到。

我也想改变异常值的形状。尽管有多个案例得分为 4，但其中一个变为空心圆圈。

我假设如果某个特定级别的一个数据点被认为是异常值，那么其余的也将被视为异常值。

这是一个编码错误还是我在统计课程中错过了什么？如果这是一个编码的事情，我如何让它们都是空心的？

显然我的“声誉”需要为 10 才能获得附加图像！我希望没有它是有意义的

这是我的代码：

r ggplot2 shapes outliers

2013-10-03T14:49:11.443

0 投票

2 回答

645 浏览

database - 如何在 ELKI 中使用索引结构？

这些是来自http://elki.dbs.ifi.lmu.de/的引号：

“本质上，我们将抽象距离查询绑定到数据库，然后对这个距离进行最近邻搜索。此时，ELKI 会自动选择最合适的 kNN 查询类。如果存在适合我们距离函数的索引（不是每一个索引都能加速每一个距离！），这里会自动使用。”

“getKNNForDBID 方法可能归结为缓慢的线性扫描，但是当数据库有合适的索引时，会使用索引查询。然后算法可以在 O(nk log n) 甚至 O(nk) 时间内运行。”

问题是：ELKI 选择运行索引查询的依据是什么？

什么是：“当数据库有适当的索引时”，我如何保证？

关于“运行”方法签名的另一个不相关的问题，为什么有 3 个签名而不是只有 1 个？它们之间有什么区别，确定使用哪个签名的标准是什么？

database cluster-analysis outliers r-tree elki

2013-10-12T20:00:43.130

问题标签 [outliers]

Reference