“iqr”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

508 浏览

python - 如何使用 pandas 在数据集中找到 IQR

数据集如下

代码如下

的输出un_outliers_data是Series([], Name: profit, dtype: int64)。有些点是异常值，如您所见1615461>(776026.0 + 688855.5)

user6882757

2020-06-09T03:06:19.983

0 投票

1 回答

37 浏览

python - 如何获取python中每个值的IQR

数据低于（df）

如何获取每个值的 IQR

输出>>id,cost,cost_IQR,spend,spend_IQR

下面的 Z 分数是我的代码

像上面的代码我生成cost_zscore，spend_zscore，如何生成cost_IQR, spend_IQR

python pandas statistics iqr

2020-06-11T13:39:30.067

0 投票

1 回答

27 浏览

r - R名称错误（x）<-值取决于循环中的范围箱线图

我有一个包含 270 列和 17392 行的大型数据集。在这 270 个中，我需要选择 235 个。这些行可以按 'Site' 分组，这是一个唯一的数值（例如，1、2 等 - 总共 111 个不同的站点）。每列构成一个“区域”。这是一个小例子（请注意，列和主题更多）：

我的目标是计算每个区域的异常值数量，按站点分组，并打印一个包含结果的 csv 文件。如果我使用 1.5*IQR，我的代码可以工作，但如果我使用 2.5*IQR，我会得到一个错误，我不明白为什么。错误是：

Error in names(x) <- value : 'names' attribute [235] must be the same length as the vector [1]

我的代码尝试（失败）：

为什么我使用 range=2.5 时会出错？如果我使用 boxplot.stats(as.matrix(j[,i]), coef=2.5)$out，也会发生同样的情况。

另外，我想在站点计算出每个区域的异常值后计算它们的总数。目前我正在绑定所有的 csv 文件，然后使用 summarise_all 来计算每个区域的观察次数，但我觉得有一种更聪明的方法。

非常感谢，如果我能提供更多信息，请告诉我。

r loops iqr

2020-06-19T01:25:17.520

0 投票

1 回答

323 浏览

r - 如何检测和删除R循环内的异常值？

希望有人可以为绝望的学生提供帮助 :-) 我有一组程序代码，我有不同数量的手术（这里：程序）以及它们各自的持续时间。我想获得一些关于持续时间的描述性统计数据。为此，我希望我的循环已经通过 IQR 函数检测和删除异常值。这是没有异常值检测和删除的代码：

这是我希望通过特定过程添加到循环中的内容：

有人知道我该怎么做吗？

非常感谢您！

r loops outliers iqr

2020-06-22T09:59:28.770

0 投票

1 回答

1002 浏览

cluster-analysis - 在多维（100+）集群问题中使用 PCA 去除异常值

我有两个数据框需要在我尝试执行以下操作的地方进行聚类：

应用 PCA 去除异常值并使用带有 3 个分量的 PCA 来可视化它。我在异常值去除过程中使用了 97.5% 的总解释方差。
逆变换并获得逆变换后的数据帧与原始数据帧之间的 MSE 分数。
使用计算出的 MSE 分数使用 IQR 上括号限制来删除异常值。
应用具有 3 个组件的 PCA 来可视化并确定新数据帧上的集群数量。

我的主要问题是：

MSE 上的 IQR 是否是移除的良好标准？

由于我们使用的是绝对值，因此我仅限于大括号。如果不是并且我正在混合概念，那么这种转换的良好标准是什么？

或者我应该放弃 PCA 并使用其他异常值检测方法，如果是这样的话？

最终，在绘制 x,y,z 图时，我仍然可以将离集群很远的点可视化，这是否意味着它们不是异常值，只是代表一个小集群的几个分散的远点？还是异常值检测无效？

最后，在第二个数据帧上，3D 可视化具有大约 40% 的解释方差，应用相同的决策过程是否公平？

cluster-analysis pca outliers mse iqr

2020-06-23T13:55:43.423

0 投票

1 回答

524 浏览

python-3.x - python中的sklearn如何计算.scale_？（它到底是什么算法？）

请假设我们有一个这样的数组：

我们通过以下代码对其进行.scale_缩放：sklearn

结果显示：

你知道它是如何计算的吗？如果你知道，请写出它的公式，它是如何计算的？我想这.scale_显示了Interquartile range (IQR)，但是当我手动计算它时IQR：

另外，我认为array([0.81649658, 0.81649658, 1.24721913])是一种正常类型的array([2, 2, 3])，但我不知道它是如何标准化的。请帮我找到它。

python-3.x scikit-learn normalization iqr standardization

2020-06-26T16:34:49.813

0 投票

2 回答

650 浏览

r - 如何编写一个循环来查找跨列的中位数

我有一个关于具有不同临床结果的肾移植患者的数据框（出于保密目的而更改了数字。换句话说，我有这样的东西。

这是简化版。我有更多的结果，所以我想创建一个循环来计算 R 中每一列的中位数和 IQR。

另一件事是我需要队列的中位数，以及患病组和非患病组的中位数作为比较。疾病结果被收集为二元、非连续变量。每个月的 eGFR、cr、alb 都是连续的非参数变量。

r loops median iqr

2020-09-08T03:27:30.580

0 投票

2 回答

193 浏览

python - 如何删除同时具有分类数据和数值数据的数据集中的异常值？

我正在尝试从数据集中的“价格”列中删除异常值。我已经能够创建异常值的数据框及其在其他列中的相应值，但我正在努力从父数据集中排除这些条目。我该怎么做？

这是我用来创建上述新数据框的代码：

在指定布尔运算之前，我尝试使用波浪号（~），但这并没有给出预期的结果。

python pandas data-science outliers iqr

2020-09-24T16:21:53.703

0 投票

0 回答

22 浏览

python - 为什么没有从数据框中删除所有异常值？

我正在尝试使用 IQR（四分位距）方法从我的数据中删除异常值。我有以下分布df_particles（我的分布），我想删除异常值。我使用以下代码来实现这一点 -

但是，当我查看的分布时result，我得到了这个。我预计不会有异常值。

我的问题是，为什么没有删除所有异常值？

有关数据的附加信息 - info

python pandas dataframe seaborn iqr

2021-01-15T05:02:25.763

0 投票

1 回答

65 浏览

python - 如何从数据框中删除基于 IQR 过滤的单个值

我有一个大约 80 列和几百行的数据框，下面是一个示例数据框。我需要根据IQR值过滤数据框，然后删除异常值而不是整行，只删除实际值/单元格。据我所知，我可以定义Q1,Q3和IQR.

我找到了一些解决方案，但它们删除了整行，但我只想删除异常值/单元格。

所以输出数据框应该是这样的：

python pandas dataframe filter iqr

2021-03-22T10:04:32.230

问题标签 [iqr]

Reference