问题标签 [iqr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何在SPSS中聚合IQR?
我必须通过生成所需变量的均值、中位数、标准差和四分位间距 (IQR) 来聚合(当然使用分类中断变量)一个包含一些连续变量的相当大的数据表。
前三个使用 SPSS Aggregate命令很容易,但我不知道如何通过聚合数据表来计算 IQR。
我知道我可以使用Descriptives(按四分位数)计算 IQR,但由于我需要聚合计算 - 这不是一个选项。不幸的是,由于一些奇怪的情况,使用 R 也失败了(不能在 R 中加载一个巨大的逗号分隔文件,既不能使用 base::read.table,也不能使用sqldf,既不能使用bigmemory也不能使用ff包)。
欢迎任何想法!当然:提前谢谢你。
PS:我曾考虑通过将标准差乘以 1.5 来估计 IQR,但由于分布偏斜,因此该方法不起作用,因此假设正态性不成立。
PS:你认为在 SPSS 中使用 R 不会导致像在纯 R 中打开数据集那样的内存问题吗?
jfreechart - Outlier rules in JFreeChart Boxplots?
i've got some questions regarding outlier rules in JFreeChart:
- Is it possible to influence the outlier rules in a JFreeChart Boxplot?
- I would assume that the default setting for outliers is Q3+1.5*IQR and Q1-1.5*IQR?
Is there a default rule for extreme values like Q3+3*IQR and Q1-3*IQR?
Maybe this should be a separate Question but how do you set the symbol for outliers? The default setting is a circle which is too big for my preference.
My data is in a DefaultBoxAndWhiskerCategoryDataset and i am not even sure if i need to change any of the default settings. Nevertheless it would be nice to know what exactly the default settings are ;)
r - R汇总函数
我在 KhanAcademy.com 上关注有关箱线图的示例。
我尝试使用以下代码模拟 R 中的问题
KA 的 Sal 表示,有两种方法可以获得四分位数,区别在于计算第一个和第三个四分位数时是否有一个因素是中位数。
有没有办法告诉汇总函数在计算其他四分位数时要排除中位数。
如果采用这种方法,答案将是
为什么没有就如何解决此类问题达成一致的方法?
r - 查找行组的 IQR
我想在数据框中找到一系列值的 IQR。这些值也被分组,因此我需要在数据框中找到每个组的 IQR。我有下表:
我运行以下代码来查找 IQR:
这给了我输出:
此输出正确地将所有摩尔浓度分组,但 IQR 不正确。如果上面的代码将平均值作为函数而不是 IQR,则 x (函数值)的值是正确的,如下所示:
预期的 IQRS 应如下所示:
任何帮助将非常感激。如果有人知道如何为 IQR 执行此功能,当有一组光斑大小(光斑大小范围为 100pl-400pl)时,包括我想听到的摩尔浓度类别。
谢谢你。
r - 小提琴图:相邻值范围如何确定,为什么与箱线图不同?
理论上vioplot包的小提琴图是箱线图+密度函数。
在“箱线图部分”中,
黑框对应于 IQR(确实,见下文),并且
中线应该对应相同的范围(相邻值,默认 1.5 IQR),但它不是(见下文)。任何人都可以解释为什么它们不同?
/li>
由以上计算:
Hintze、JL 和 RD 尼尔森 (1998)。小提琴图:箱线图-密度迹线协同作用。美国统计学家,52(2):181-4。
python - 如何使用带有 IQR 的 pandas 过滤器
是否有内置方法可以按 IQR(即 Q1-1.5IQR 和 Q3+1.5IQR 之间的值)对列进行过滤?此外,将不胜感激建议的 pandas 中任何其他可能的广义过滤。
python - Matplotlib 中的 Tukey Boxplots - 代码中的异常逻辑?
在阅读StackOverflow 中相关问题的答案时,我看到了 matplotlib中用于计算 wiskers 位置和检测异常值的代码:
现在,这else
部分非常有意义 - 根据Tukey boxplots的规范,我们在上四分位数的 1.5 IQR 内找到了最高基准。确实,这是-下面max(wish_hi)
是最大的数据条目。 Q3+1.5*IQR
or
然而,我不明白的部分。if len(wisk_hi) == 0
翻译为...
这个条件如何适用?Q3 是通过在中位数上拆分数据,然后取上半部分的中位数,然后在其上加上 1.5*IQR 找到的- 怎么可能没有低于这个值的数据?
如果这是关于一个空数据集,那么第二部分or
也没有意义(因为 Q3 或 IQR 没有数据就没有意义)。
可能遗漏了一些明显的东西 - 帮助?
r - 使用箱线图检测到的异常值更少
我想使用分位数和 1.5*IQR 确定数据框中的异常值。我使用了箱线图函数,并将得到的异常值与使用分位数和 iqr 计算的异常值进行了比较。
我注意到这两种方法之间的区别。箱线图方法检测到的异常值少于 Q1-1.5*IQR、Q3+1.5*IQR 计算。我尝试将range
in boxplot 设置为 1.5,但它仍然检测到较少的异常值。range 是要设置的正确 boxplot 选项还是我需要设置的另一个选项?
任何帮助是极大的赞赏。
r - 如何在 R 中查找具有离散变量的数据中的异常值
我开始学习 R 和数据科学。
我有一个数据框,我的大部分变量和我想要预测的类都是离散的。
我需要做的是在这些数据中找到异常值,以便我可以通过插补或其他方式处理它们。
我研究的一些方法是使用 IQR(四分位间距)、Cook 距离或使用 'outliers' 包,但似乎大多数只能应用于连续数据,所以 R 给了我错误说它不能应用在这种情况下,我认为是离散数据。
我在使用“异常值”包时遇到的错误之一。
我在这里做错了吗?有人可以帮忙吗?任何帮助表示赞赏,谢谢。