问题标签 [iqr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
508 浏览

python - 如何使用 pandas 在数据集中找到 IQR

数据集如下

代码如下

的输出un_outliers_dataSeries([], Name: profit, dtype: int64)。有些点是异常值,如您所见1615461>(776026.0 + 688855.5)

0 投票
1 回答
37 浏览

python - 如何获取python中每个值的IQR

数据低于(df)

如何获取每个值的 IQR

输出>>id,cost,cost_IQR,spend,spend_IQR

下面的 Z 分数是我的代码

像上面的代码我生成cost_zscore,spend_zscore,如何生成cost_IQR, spend_IQR

0 投票
1 回答
27 浏览

r - R名称错误(x)<-值取决于循环中的范围箱线图

我有一个包含 270 列和 17392 行的大型数据集。在这 270 个中,我需要选择 235 个。这些行可以按 'Site' 分组,这是一个唯一的数值(例如,1、2 等 - 总共 111 个不同的站点)。每列构成一个“区域”。这是一个小例子(请注意,列和主题更多):

我的目标是计算每个区域的异常值数量,按站点分组,并打印一个包含结果的 csv 文件。如果我使用 1.5*IQR,我的代码可以工作,但如果我使用 2.5*IQR,我会得到一个错误,我不明白为什么。错误是:

Error in names(x) <- value : 'names' attribute [235] must be the same length as the vector [1]

我的代码尝试(失败):

为什么我使用 range=2.5 时会出错?如果我使用 boxplot.stats(as.matrix(j[,i]), coef=2.5)$out,也会发生同样的情况。

另外,我想在站点计算出每个区域的异常值后计算它们的总数。目前我正在绑定所有的 csv 文件,然后使用 summarise_all 来计算每个区域的观察次数,但我觉得有一种更聪明的方法。

非常感谢,如果我能提供更多信息,请告诉我。

0 投票
1 回答
323 浏览

r - 如何检测和删除R循环内的异常值?

希望有人可以为绝望的学生提供帮助 :-) 我有一组程序代码,我有不同数量的手术(这里:程序)以及它们各自的持续时间。我想获得一些关于持续时间的描述性统计数据。为此,我希望我的循环已经通过 IQR 函数检测和删除异常值。这是没有异常值检测和删除的代码:

这是我希望通过特定过程添加到循环中的内容:

有人知道我该怎么做吗?

非常感谢您!

0 投票
1 回答
1002 浏览

cluster-analysis - 在多维(100+)集群问题中使用 PCA 去除异常值

我有两个数据框需要在我尝试执行以下操作的地方进行聚类:

  1. 应用 PCA 去除异常值并使用带有 3 个分量的 PCA 来可视化它。我在异常值去除过程中使用了 97.5% 的总解释方差。
  2. 逆变换并获得逆变换后的数据帧与原始数据帧之间的 MSE 分数。
  3. 使用计算出的 MSE 分数使用 IQR 上括号限制来删除异常值。
  4. 应用具有 3 个组件的 PCA 来可视化并确定新数据帧上的集群数量。

我的主要问题是:

MSE 上的 IQR 是否是移除的良好标准?

由于我们使用的是绝对值,因此我仅限于大括号。如果不是并且我正在混合概念,那么这种转换的良好标准是什么?

或者我应该放弃 PCA 并使用其他异常值检测方法,如果是这样的话?

最终,在绘制 x,y,z 图时,我仍然可以将离集群很远的点可视化,这是否意味着它们不是异常值,只是代表一个小集群的几个分散的远点?还是异常值检测无效?

最后,在第二个数据帧上,3D 可视化具有大约 40% 的解释方差,应用相同的决策过程是否公平?

0 投票
1 回答
524 浏览

python-3.x - python中的sklearn如何计算.scale_?(它到底是什么算法?)

请假设我们有一个这样的数组:

我们通过以下代码对其进行.scale_缩放:sklearn

结果显示:

你知道它是如何计算的吗?如果你知道,请写出它的公式,它是如何计算的?我想这.scale_显示了Interquartile range (IQR),但是当我手动计算它时IQR

另外,我认为array([0.81649658, 0.81649658, 1.24721913])是一种正常类型的array([2, 2, 3]),但我不知道它是如何标准化的。请帮我找到它。

0 投票
2 回答
650 浏览

r - 如何编写一个循环来查找跨列的中位数

我有一个关于具有不同临床结果的肾移植患者的数据框(出于保密目的而更改了数字。换句话说,我有这样的东西。

这是简化版。我有更多的结果,所以我想创建一个循环来计算 R 中每一列的中位数和 IQR。

另一件事是我需要队列的中位数,以及患病组和非患病组的中位数作为比较。疾病结果被收集为二元、非连续变量。每个月的 eGFR、cr、alb 都是连续的非参数变量。

0 投票
2 回答
193 浏览

python - 如何删除同时具有分类数据和数值数据的数据集中的异常值?

我正在尝试从数据集中的“价格”列中删除异常值。我已经能够创建异常值的数据框及其在其他列中的相应值,但我正在努力从父数据集中排除这些条目。我该怎么做?

这是我用来创建上述新数据框的代码:

在指定布尔运算之前,我尝试使用波浪号(~),但这并没有给出预期的结果。

0 投票
0 回答
22 浏览

python - 为什么没有从数据框中删除所有异常值?

我正在尝试使用 IQR(四分位距)方法从我的数据中删除异常值。我有以下分布df_particles我的分布),我想删除异常值。我使用以下代码来实现这一点 -

但是,当我查看 的分布时result,我得到了这个。我预计不会有异常值。

我的问题是,为什么没有删除所有异常值?

有关数据的附加信息 - info

0 投票
1 回答
65 浏览

python - 如何从数据框中删除基于 IQR 过滤的单个值

我有一个大约 80 列和几百行的数据框,下面是一个示例数据框。我需要根据IQR值过滤数据框,然后删除异常值而不是整行,只删除实际值/单元格。据我所知,我可以定义Q1,Q3IQR.

我找到了一些解决方案,但它们删除了整行,但我只想删除异常值/单元格。

所以输出数据框应该是这样的:

输出数据框