问题标签 [outliers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 找出一组双精度值中的异常值
我有一个双值列表,我想在其中找到异常值。weka 是否提供任何算法来解决问题?
matlab - 在 libsvm matlab 中标记一个类以进行交叉验证
我想在 MATLAB 中使用 LibSVM 使用一类分类。
我想训练数据并使用交叉验证,但我不知道如何标记异常值。
例如,如果我有这些数据:
(前四个是1类的例子,其他四个是异常值的例子,只是为了交叉验证)
我使用以下方法训练模型:
我不确定使用哪个值来标记 1 类数据以及对异常值使用什么值。有人知道该怎么做吗?
提前致谢。-杰西卡
parameters - Weka Gridsearch libsvm 无法处理一元类(一类)
我正在尝试使用 Weka 下的 LibSVM 包装器来获取一类分类器的最佳参数。
出于这个原因,我要去weka.classifiers.meta.GridSearch然后我选择LibSVM one class。
我使用的所有数据都标记为同一类。我要查找的参数是nu和gamma
网格搜索选项是:
weka.classifiers.meta.GridSearch -E CC -y-property classifier.kernel.gamma -y-min -5.0 -y-max 2.0 -y-step 1.0 -y-base 10.0 -y-expression pow(BASE,I) -filter weka.filters.AllFilter -x-property classifier.nu -x-min 0.01 -x-max 1.0 -x-step 10.0 -x-base 10.0 -x-expression I -sample-size 100.0 -traversal COLUMN-WISE -日志文件“C:\Program Files\Weka-3-6”-S 1 -W weka.classifiers.functions.LibSVM -- -S 2 -K 2 -D 3 -G 0.0 -R 0.0 -N 0.5 -M 40.0 -C 1.0 -E 0.0010 -P 0.1
然后,weka 告诉我:
weka.classifiers.meta.GridSearch 不能处理一元类!!!
gridsearch 不能处理一元类是真的吗?或者我只是做错了什么?
谢谢您的帮助。
-杰西卡
r - “for”循环的输出
根据 Roland在 R 中使用 sapply() 绘制标题的建议,我创建了以下循环,以从我的数据集中的每个选定变量中制作箱线图。
它很好地完成了这项工作,因为它提供了图表。有人可以向我指出如何使循环返回一些输出,比如箱线图中的 $out 以便能够看到它计算的异常值的数量吗?
非常感谢!
r - 使用 R 从数据中删除异常值的方法
我已经删除了建模数据中的异常值。我厌倦了尝试所有删除方法,因为在应用了许多方法后,有一个异常值让我很困扰。
任何人都可以请帮我解决这个问题.....拜托..
我使用了 winzorise、异常值、极值包等,但无法删除异常值
数据有 50000 个客户和 32 个属性。
数据既有数字数据也有非数字数据
我无法在此处附加数据集。
请帮我
额外的信息:
我非常担心,因为这是我的论文,我不知道如何处理异常值..
如果您知道任何有效的方法,请发布...
网上有资料,这里不能发,不好意思。。。
我的主管需要一个没有异常值的图......以及异常值数据的整个数据槽。我不知道如何对所有变量组合执行此操作,并选择异常值并在图中没有任何异常值的情况下进行绘图。
我不知道该怎么做。由于声誉<10,我无法发布图片或数据快照
statistics - 在处理指数数据集时,使用 mquantiles() 准确吗?
我试图找到最准确的函数来给我数据集中给定值的分位数。数据集(可能)总是呈指数分布。
我使用的方法如下(如果编码很差,我深表歉意,因为我真的是一个基础设施专家,不是统计人员,也不是日常开发人员):
在我的研究过程中,我注意到有几个更高级的功能可以使用,例如scipy.stats.[distribution type].ppf()
.
使用这些有什么好处mquantiles()
?
有没有一种方法可以有效地确定数据集中数据的分布(这是我关心的问题scipy.stats.[distribution type]()
)?
谢谢,
马特
[更新]
在与“统计老兄”讨论后,我相信如果您不知道分布,这种方法(他称之为“经验方法”)同样有效。要找到分布,您可以使用Kolmogorov–Smirnov 检验,该检验通过scipy.stats.ksone
和scipy.stats.kstwobign
确定分布,然后使用其中一个scipy.stats.[distribution type].ppf()
函数。他还说没关系,上面的方法和做这些工作一样好,回报很少。尽管他警告说,上述方法的强度会随着可用数据量的增加而增加data
(这意味着反之亦然),但没有人解决了对小数据集应用法律的问题。
我要做的是考虑数据集的强度,并对我的结果赋予权重,并在数据集“小”时认为它更加模糊/权重更小。什么是“小”?我不肯定。
我仍然想找到其他人关于有效使用 ppf() 与 mquantile() 的意见。
sql - postgresql:从视图中选择非异常值
使用 8.3 版(在这件事上别无选择)。
我不能使用“;WITH x AS”样式查询,因为它不受支持(从我在 8.3 中可以看出。我试图使用它们但它们未被识别)。我当然也不能使用 TOP,因为我不在 SQL Server 中。我尝试使用以下限制查询,但因以下错误而受阻:
这并不理想,因为它不会移除较低的 5%,但我只能忍受最高的 5% 被移除。
r - 如何处理具有 30M 条目的大文件?
我的问题的第一部分是,有没有比计算标准差更快的方法
问题的第二部分是如何去除异常值(距离每条线的平均值 3 个 SD)并重新计算每条线的 SD。
问题的第三部分是,一旦我计算出每条线的 SD,如何挑选超过特定阈值的那些(例如 0.05)?
我的矩阵有 3000 万行和 50 列。
如果有比 R 更快的方法(例如 perl 或 matlab),我也很乐意尝试。
...
我有一个包含 3000 万行和 50 列的矩阵。对于每一行,我想删除异常值并计算标准偏差 (SD)。所以我会有3000万SD。然后我想选择那些 SD 最高的行(前 %5)。
我尝试了 R,但即使将数据加载到 R 中也需要大量时间。我什至将数据保存为 *RData。但仍然很慢而且耗时太多。
有没有更快的方法来做这些事情?在 r 或 perl 或 matlab 中?
outliers - ELKI - 输入距离矩阵
我正在尝试使用 ELKI 进行异常值检测;我有我的自定义距离矩阵,我正在尝试将其输入到 ELKI 以执行 LOF(例如,第一次)。
我尝试关注http://elki.dbs.ifi.lmu.de/wiki/HowTo/PrecomputedDistances但对我来说不是很清楚。我做什么:
我不想从数据库加载数据,所以我使用:
(其中 100 是我要分析的对象数量)
我使用 LOF 算法并调用外部距离文件
/li>
我的距离文件如下(为了测试目的很简单)
ETC
结果说:“所有在一个微不足道的聚类中”,虽然这不是聚类,而且我的数据中肯定存在异常值。
我做的对吗?或者我错过了什么?
opencv - OpenCV:如何使用不同视角的真实场景图像比较特征检测器和提取器的性能?
我正在尝试构建一个闭环算法,但在开始开发之前,我想测试哪个特征描述符在真实数据集上工作得更好。
我有两张双向拍摄的走廊图像,一张进入房间,另一张离开同一个房间。因此它们代表相同的场景,但来自 2 个不同(相反)的观点。
我正在使用 OpenCV,并且已经为检测器、提取器和匹配器编写了代码。
但是现在看结果我发现有很多错误的匹配。我怎样才能放下它们?我尝试使用 cv::FindFoundamentalMat 但我不确定这是否是正确的方法。
编辑
我发现这篇论文 ( ShmidtJAMRIS12 ) 完全符合我的想法,但我无法理解他们如何选择每个检测器和提取器的参数