“outliers”的相关标签问题_Stack Overflow中文网

0 投票

3 回答

3934 浏览

java - 找出一组双精度值中的异常值

我有一个双值列表，我想在其中找到异常值。weka 是否提供任何算法来解决问题？

2013-05-10T10:46:23.317

0 投票

1 回答

2658 浏览

matlab - 在 libsvm matlab 中标记一个类以进行交叉验证

我想在 MATLAB 中使用 LibSVM 使用一类分类。

我想训练数据并使用交叉验证，但我不知道如何标记异常值。

例如，如果我有这些数据：

（前四个是1类的例子，其他四个是异常值的例子，只是为了交叉验证）

我使用以下方法训练模型：

我不确定使用哪个值来标记 1 类数据以及对异常值使用什么值。有人知道该怎么做吗？

提前致谢。-杰西卡

matlab label libsvm outliers cross-validation

2013-05-14T18:33:17.383

0 投票

1 回答

1222 浏览

parameters - Weka Gridsearch libsvm 无法处理一元类（一类）

我正在尝试使用 Weka 下的 LibSVM 包装器来获取一类分类器的最佳参数。

出于这个原因，我要去weka.classifiers.meta.GridSearch然后我选择LibSVM one class。

我使用的所有数据都标记为同一类。我要查找的参数是nu和gamma

网格搜索选项是：

weka.classifiers.meta.GridSearch -E CC -y-property classifier.kernel.gamma -y-min -5.0 -y-max 2.0 -y-step 1.0 -y-base 10.0 -y-expression pow(BASE,I) -filter weka.filters.AllFilter -x-property classifier.nu -x-min 0.01 -x-max 1.0 -x-step 10.0 -x-base 10.0 -x-expression I -sample-size 100.0 -traversal COLUMN-WISE -日志文件“C:\Program Files\Weka-3-6”-S 1 -W weka.classifiers.functions.LibSVM -- -S 2 -K 2 -D 3 -G 0.0 -R 0.0 -N 0.5 -M 40.0 -C 1.0 -E 0.0010 -P 0.1

然后，weka 告诉我：

weka.classifiers.meta.GridSearch 不能处理一元类！！！

gridsearch 不能处理一元类是真的吗？或者我只是做错了什么？

谢谢您的帮助。

-杰西卡

parameters weka libsvm outliers

2013-05-15T19:43:19.673

0 投票

2 回答

131 浏览

r - “for”循环的输出

根据 Roland在 R 中使用 sapply() 绘制标题的建议，我创建了以下循环，以从我的数据集中的每个选定变量中制作箱线图。

它很好地完成了这项工作，因为它提供了图表。有人可以向我指出如何使循环返回一些输出，比如箱线图中的 $out 以便能够看到它计算的异常值的数量吗？

非常感谢！

r for-loop boxplot outliers

2013-05-25T08:08:23.423

0 投票

2 回答

1849 浏览

r - 使用 R 从数据中删除异常值的方法

我已经删除了建模数据中的异常值。我厌倦了尝试所有删除方法，因为在应用了许多方法后，有一个异常值让我很困扰。

任何人都可以请帮我解决这个问题.....拜托..

我使用了 winzorise、异常值、极值包等，但无法删除异常值

数据有 50000 个客户和 32 个属性。

数据既有数字数据也有非数字数据

我无法在此处附加数据集。

请帮我

额外的信息：

我非常担心，因为这是我的论文，我不知道如何处理异常值..

如果您知道任何有效的方法，请发布...

网上有资料，这里不能发，不好意思。。。

我的主管需要一个没有异常值的图......以及异常值数据的整个数据槽。我不知道如何对所有变量组合执行此操作，并选择异常值并在图中没有任何异常值的情况下进行绘图。

我不知道该怎么做。由于声誉<10，我无法发布图片或数据快照

r data-mining outliers

2013-06-15T15:49:30.850

0 投票

1 回答

549 浏览

statistics - 在处理指数数据集时，使用 mquantiles() 准确吗？

我试图找到最准确的函数来给我数据集中给定值的分位数。数据集（可能）总是呈指数分布。

我使用的方法如下（如果编码很差，我深表歉意，因为我真的是一个基础设施专家，不是统计人员，也不是日常开发人员）：

在我的研究过程中，我注意到有几个更高级的功能可以使用，例如scipy.stats.[distribution type].ppf().

使用这些有什么好处mquantiles()？

有没有一种方法可以有效地确定数据集中数据的分布（这是我关心的问题scipy.stats.[distribution type]()）？

谢谢，

马特

[更新]

在与“统计老兄”讨论后，我相信如果您不知道分布，这种方法（他称之为“经验方法”）同样有效。要找到分布，您可以使用Kolmogorov–Smirnov 检验，该检验通过scipy.stats.ksone和scipy.stats.kstwobign确定分布，然后使用其中一个scipy.stats.[distribution type].ppf()函数。他还说没关系，上面的方法和做这些工作一样好，回报很少。尽管他警告说，上述方法的强度会随着可用数据量的增加而增加data（这意味着反之亦然），但没有人解决了对小数据集应用法律的问题。

我要做的是考虑数据集的强度，并对我的结果赋予权重，并在数据集“小”时认为它更加模糊/权重更小。什么是“小”？我不肯定。

我仍然想找到其他人关于有效使用 ppf() 与 mquantile() 的意见。

statistics scipy outliers quantile

2013-06-26T20:53:26.330

0 投票

1 回答

293 浏览

sql - postgresql：从视图中选择非异常值

使用 8.3 版（在这件事上别无选择）。

我不能使用“;WITH x AS”样式查询，因为它不受支持（从我在 8.3 中可以看出。我试图使用它们但它们未被识别）。我当然也不能使用 TOP，因为我不在 SQL Server 中。我尝试使用以下限制查询，但因以下错误而受阻：

这并不理想，因为它不会移除较低的 5%，但我只能忍受最高的 5% 被移除。

sql postgresql outliers postgresql-8.3

2013-07-11T16:40:44.447

0 投票

2 回答

470 浏览

r - 如何处理具有 30M 条目的大文件？

我的问题的第一部分是，有没有比计算标准差更快的方法

问题的第二部分是如何去除异常值（距离每条线的平均值 3 个 SD）并重新计算每条线的 SD。

问题的第三部分是，一旦我计算出每条线的 SD，如何挑选超过特定阈值的那些（例如 0.05）？

我的矩阵有 3000 万行和 50 列。

如果有比 R 更快的方法（例如 perl 或 matlab），我也很乐意尝试。

...

我有一个包含 3000 万行和 50 列的矩阵。对于每一行，我想删除异常值并计算标准偏差 (SD)。所以我会有3000万SD。然后我想选择那些 SD 最高的行（前 %5）。

我尝试了 R，但即使将数据加载到 R 中也需要大量时间。我什至将数据保存为 *RData。但仍然很慢而且耗时太多。

有没有更快的方法来做这些事情？在 r 或 perl 或 matlab 中？

r large-files outliers large-data

2013-07-14T16:42:03.680

0 投票

1 回答

637 浏览

outliers - ELKI - 输入距离矩阵

我正在尝试使用 ELKI 进行异常值检测；我有我的自定义距离矩阵，我正在尝试将其输入到 ELKI 以执行 LOF（例如，第一次）。

我尝试关注http://elki.dbs.ifi.lmu.de/wiki/HowTo/PrecomputedDistances但对我来说不是很清楚。我做什么：

我不想从数据库加载数据，所以我使用：

（其中 100 是我要分析的对象数量）
我使用 LOF 算法并调用外部距离文件
/li>

我的距离文件如下（为了测试目的很简单）

ETC

结果说：“所有在一个微不足道的聚类中”，虽然这不是聚类，而且我的数据中肯定存在异常值。

我做的对吗？或者我错过了什么？

outliers elki

2013-07-16T13:14:02.553

0 投票

1 回答

292 浏览

opencv - OpenCV：如何使用不同视角的真实场景图像比较特征检测器和提取器的性能？

我正在尝试构建一个闭环算法，但在开始开发之前，我想测试哪个特征描述符在真实数据集上工作得更好。

我有两张双向拍摄的走廊图像，一张进入房间，另一张离开同一个房间。因此它们代表相同的场景，但来自 2 个不同（相反）的观点。

我正在使用 OpenCV，并且已经为检测器、提取器和匹配器编写了代码。

但是现在看结果我发现有很多错误的匹配。我怎样才能放下它们？我尝试使用 cv::FindFoundamentalMat 但我不确定这是否是正确的方法。

编辑

我发现这篇论文 ( ShmidtJAMRIS12 ) 完全符合我的想法，但我无法理解他们如何选择每个检测器和提取器的参数

opencv feature-detection feature-extraction feature-selection outliers

2013-07-18T09:50:07.183

问题标签 [outliers]

Reference