问题标签 [iqr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用 pandas 在数据集中找到 IQR
数据集如下
代码如下
的输出un_outliers_data
是Series([], Name: profit, dtype: int64)
。有些点是异常值,如您所见1615461
>(776026.0 + 688855.5)
python - 如何获取python中每个值的IQR
数据低于(df)
如何获取每个值的 IQR
输出>>id,cost,cost_IQR,spend,spend_IQR
下面的 Z 分数是我的代码
像上面的代码我生成cost_zscore,spend_zscore,如何生成cost_IQR, spend_IQR
r - R名称错误(x)<-值取决于循环中的范围箱线图
我有一个包含 270 列和 17392 行的大型数据集。在这 270 个中,我需要选择 235 个。这些行可以按 'Site' 分组,这是一个唯一的数值(例如,1、2 等 - 总共 111 个不同的站点)。每列构成一个“区域”。这是一个小例子(请注意,列和主题更多):
我的目标是计算每个区域的异常值数量,按站点分组,并打印一个包含结果的 csv 文件。如果我使用 1.5*IQR,我的代码可以工作,但如果我使用 2.5*IQR,我会得到一个错误,我不明白为什么。错误是:
Error in names(x) <- value :
'names' attribute [235] must be the same length as the vector [1]
我的代码尝试(失败):
为什么我使用 range=2.5 时会出错?如果我使用 boxplot.stats(as.matrix(j[,i]), coef=2.5)$out,也会发生同样的情况。
另外,我想在站点计算出每个区域的异常值后计算它们的总数。目前我正在绑定所有的 csv 文件,然后使用 summarise_all 来计算每个区域的观察次数,但我觉得有一种更聪明的方法。
非常感谢,如果我能提供更多信息,请告诉我。
r - 如何检测和删除R循环内的异常值?
希望有人可以为绝望的学生提供帮助 :-) 我有一组程序代码,我有不同数量的手术(这里:程序)以及它们各自的持续时间。我想获得一些关于持续时间的描述性统计数据。为此,我希望我的循环已经通过 IQR 函数检测和删除异常值。这是没有异常值检测和删除的代码:
这是我希望通过特定过程添加到循环中的内容:
有人知道我该怎么做吗?
非常感谢您!
cluster-analysis - 在多维(100+)集群问题中使用 PCA 去除异常值
我有两个数据框需要在我尝试执行以下操作的地方进行聚类:
- 应用 PCA 去除异常值并使用带有 3 个分量的 PCA 来可视化它。我在异常值去除过程中使用了 97.5% 的总解释方差。
- 逆变换并获得逆变换后的数据帧与原始数据帧之间的 MSE 分数。
- 使用计算出的 MSE 分数使用 IQR 上括号限制来删除异常值。
- 应用具有 3 个组件的 PCA 来可视化并确定新数据帧上的集群数量。
我的主要问题是:
MSE 上的 IQR 是否是移除的良好标准?
由于我们使用的是绝对值,因此我仅限于大括号。如果不是并且我正在混合概念,那么这种转换的良好标准是什么?
或者我应该放弃 PCA 并使用其他异常值检测方法,如果是这样的话?
最终,在绘制 x,y,z 图时,我仍然可以将离集群很远的点可视化,这是否意味着它们不是异常值,只是代表一个小集群的几个分散的远点?还是异常值检测无效?
最后,在第二个数据帧上,3D 可视化具有大约 40% 的解释方差,应用相同的决策过程是否公平?
python-3.x - python中的sklearn如何计算.scale_?(它到底是什么算法?)
请假设我们有一个这样的数组:
我们通过以下代码对其进行.scale_
缩放:sklearn
结果显示:
你知道它是如何计算的吗?如果你知道,请写出它的公式,它是如何计算的?我想这.scale_
显示了Interquartile range (IQR)
,但是当我手动计算它时IQR
:
另外,我认为array([0.81649658, 0.81649658, 1.24721913])
是一种正常类型的array([2, 2, 3])
,但我不知道它是如何标准化的。请帮我找到它。
r - 如何编写一个循环来查找跨列的中位数
我有一个关于具有不同临床结果的肾移植患者的数据框(出于保密目的而更改了数字。换句话说,我有这样的东西。
这是简化版。我有更多的结果,所以我想创建一个循环来计算 R 中每一列的中位数和 IQR。
另一件事是我需要队列的中位数,以及患病组和非患病组的中位数作为比较。疾病结果被收集为二元、非连续变量。每个月的 eGFR、cr、alb 都是连续的非参数变量。
python - 如何删除同时具有分类数据和数值数据的数据集中的异常值?
我正在尝试从数据集中的“价格”列中删除异常值。我已经能够创建异常值的数据框及其在其他列中的相应值,但我正在努力从父数据集中排除这些条目。我该怎么做?
这是我用来创建上述新数据框的代码:
在指定布尔运算之前,我尝试使用波浪号(~),但这并没有给出预期的结果。