问题标签 [quartile]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
225 浏览

r - 汇总值 dplyr r

我有一个范围从 -33 到 17 的目标变量和一个 int 类型的变量 Mercer_category_id。

仅当目标变量小于或等于第一个四分位数时,我想从最低到最高查找变量的数量。

我试图这样做:

响应是一个错误:

后:

回复:

也试试:

回复:

如果我这样做

或者

我得到这个回应:

这几乎是我需要的。只需要订购第n列,从最大数量到最小数量

如何使用 dplyr 来做到这一点?

0 投票
1 回答
52 浏览

python - 根据 ID 计算四分位数

我有一个数据框,我正在尝试计算按另一列中的 ID 分组的第一个四分位数 (0.25)。

例如,在下面的代码片段中,我想创建一个名为 Quartile 1 的新列,其中第一个四分位数 (0.25) 值分别用于分组的 ABC 和 DEF。

因此,ID 为“ABC”的所有行都将具有相同的值(对于 DEF 也是如此)。

0 投票
2 回答
8221 浏览

python - 熊猫如何计算四分位数?

我有一个非常简单的数据框:

df.median() = 23 这是正确的,因为从列表中的 19 个值中,23 是第 10 个值(23 之前的 9 个值,23 之后的 9 个值)

我试图将第一和第三四分位数计算为:

我原本预计,从低于中位数的 9 个值来看,第一个四分位数应该是 19,但正如您在上面看到的,python 说它是 20。同样,对于第三个四分位数,从右到左的第五个数字是 24,但 python 显示为 23.5。

熊猫如何计算四分位数?

原始问题来自以下链接: https ://www.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/box-whisker-plots/a/identifying-outliers-iqr-rule

0 投票
1 回答
383 浏览

python - 熊猫:组中的zscore

我正在尝试在组中找到 z 值的分数,例如在以下数据中

在第 1 组中有值 5、10、7。所以现在我只在他们的组中寻找他们的 zscore

上面的 zscore 不是真正的计算值,只是一个表示。

我正在尝试以下

但无法成功。我怎样才能做到这一点?

0 投票
3 回答
47 浏览

r - 使用另一列的四分位数值在数据框中创建变量

我想在数据框中创建一个变量,该变量将根据列的四分位数/中位数对观察结果进行分类。

以下是我尝试过的。

我收到的输出是

R中是否有更有效的方法可以实现相同的目标?

0 投票
1 回答
80 浏览

python - 优化熊猫数据框列的四分位数?

我在数据框中有多个包含数字数据的列。我想对每列进行四分位数,将每个值更改为 q1、q2、q3 或 q4。

我目前遍历每一列并使用 pandas qcut 函数更改它们:

这很慢!有没有更快的方法来做到这一点?

0 投票
1 回答
54 浏览

r - 将适当的子集四分位数附加到数据集

我正在尝试向 NBA 球员数据集添加两列。第一列将确定玩家年龄在数据集中所有玩家中的四分位数。第二个附加栏将确定单个球员的年龄在他的位置(即控球后卫、小前锋、中锋等)中的哪个四分位数。我可以使用 dplyr 包根据玩家位置计算子集年龄四分位数,但我不知道如何将其连接回原始数据集,或者这是否是正确的方法。

我已经使用 dplyr 根据位置计算子集年龄四分位数。曾尝试使用其他包,如 blurjoin,但使用它们感觉不太舒服。

我希望拥有包含 664 个观察值和 32 个变量的玩家数据集,其中最后两个已作为此过程的结果添加。额外的行将显示基于所有球员的球员年龄四分位数,以及基于位置的球员年龄四分位数。

0 投票
1 回答
348 浏览

r - 如何从箱线图中提取和格式化中位数和 IQR

我希望从我的箱线图统计中提取并格式化中位数和四分位数范围。

我设法用这行代码得到了原始结果:

这给了我:

我可以分别添加 [,1] 或 [1,] 精确一行或一列,即:我可以提取一组的最小/第一个四分位数/中位数/第三个四分位数/最大值,或者每个子组的一个统计信息:

但我想不出一种简单的方法来提取和格式化每个子组 [,1] [,2] 和 [,3] 的中位数和 IQR 以获得如下结果:

我可以手动完成,但我有数百个变量要保存......任何建议将不胜感激!提前致谢

0 投票
2 回答
656 浏览

r - 根据条件 (R) 在数据框中制作中位数和四分位数的数据拆分列

如果我以 mtcars 为例:

如何添加另外两列,一列指示值低于/高于中位数,另一列指示值在哪个四分位数?但是,我希望每组cyl.

这是我希望的具体结果:

我会很感激帮助。谢谢你。

编辑以下 akun 的回答

在该quartile_split列中,akun 的答案在每个 cyl 组中留下了最低值NA。我想我可以通过添加来解决这个问题:

所以完整的代码是:

但是,当我更仔细地看时,我也发现了另外一些看起来不太对劲的地方,具体来说,当你只看cyl = 6组时,你会看到:

该组的中位数disp为 163.8,因此disp = 167.6应将两辆车归类为“above_median”,而不是“below_median”。

我希望这可以以某种方式解决。再次感谢你。

0 投票
1 回答
214 浏览

arrays - 如何使用Matlab查找数组中四分位数的索引值?

我有一个尺寸为 1x3000 的向量。我在 Matlab 中使用百分位函数找到了百分位值。但我无法在向量内找到四分位数的索引值。

Idx 返回一个空值。我应该能够获得包含中值的索引值。