问题标签 [quartile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 汇总值 dplyr r
我有一个范围从 -33 到 17 的目标变量和一个 int 类型的变量 Mercer_category_id。
仅当目标变量小于或等于第一个四分位数时,我想从最低到最高查找变量的数量。
我试图这样做:
响应是一个错误:
后:
回复:
也试试:
回复:
如果我这样做
或者
我得到这个回应:
这几乎是我需要的。只需要订购第n列,从最大数量到最小数量
如何使用 dplyr 来做到这一点?
python - 根据 ID 计算四分位数
我有一个数据框,我正在尝试计算按另一列中的 ID 分组的第一个四分位数 (0.25)。
例如,在下面的代码片段中,我想创建一个名为 Quartile 1 的新列,其中第一个四分位数 (0.25) 值分别用于分组的 ABC 和 DEF。
因此,ID 为“ABC”的所有行都将具有相同的值(对于 DEF 也是如此)。
python - 熊猫如何计算四分位数?
我有一个非常简单的数据框:
df.median() = 23 这是正确的,因为从列表中的 19 个值中,23 是第 10 个值(23 之前的 9 个值,23 之后的 9 个值)
我试图将第一和第三四分位数计算为:
我原本预计,从低于中位数的 9 个值来看,第一个四分位数应该是 19,但正如您在上面看到的,python 说它是 20。同样,对于第三个四分位数,从右到左的第五个数字是 24,但 python 显示为 23.5。
熊猫如何计算四分位数?
python - 熊猫:组中的zscore
我正在尝试在组中找到 z 值的分数,例如在以下数据中
在第 1 组中有值 5、10、7。所以现在我只在他们的组中寻找他们的 zscore
上面的 zscore 不是真正的计算值,只是一个表示。
我正在尝试以下
但无法成功。我怎样才能做到这一点?
r - 使用另一列的四分位数值在数据框中创建变量
我想在数据框中创建一个变量,该变量将根据列的四分位数/中位数对观察结果进行分类。
以下是我尝试过的。
我收到的输出是
R中是否有更有效的方法可以实现相同的目标?
python - 优化熊猫数据框列的四分位数?
我在数据框中有多个包含数字数据的列。我想对每列进行四分位数,将每个值更改为 q1、q2、q3 或 q4。
我目前遍历每一列并使用 pandas qcut 函数更改它们:
这很慢!有没有更快的方法来做到这一点?
r - 将适当的子集四分位数附加到数据集
我正在尝试向 NBA 球员数据集添加两列。第一列将确定玩家年龄在数据集中所有玩家中的四分位数。第二个附加栏将确定单个球员的年龄在他的位置(即控球后卫、小前锋、中锋等)中的哪个四分位数。我可以使用 dplyr 包根据玩家位置计算子集年龄四分位数,但我不知道如何将其连接回原始数据集,或者这是否是正确的方法。
我已经使用 dplyr 根据位置计算子集年龄四分位数。曾尝试使用其他包,如 blurjoin,但使用它们感觉不太舒服。
我希望拥有包含 664 个观察值和 32 个变量的玩家数据集,其中最后两个已作为此过程的结果添加。额外的行将显示基于所有球员的球员年龄四分位数,以及基于位置的球员年龄四分位数。
r - 如何从箱线图中提取和格式化中位数和 IQR
我希望从我的箱线图统计中提取并格式化中位数和四分位数范围。
我设法用这行代码得到了原始结果:
这给了我:
我可以分别添加 [,1] 或 [1,] 精确一行或一列,即:我可以提取一组的最小/第一个四分位数/中位数/第三个四分位数/最大值,或者每个子组的一个统计信息:
但我想不出一种简单的方法来提取和格式化每个子组 [,1] [,2] 和 [,3] 的中位数和 IQR 以获得如下结果:
我可以手动完成,但我有数百个变量要保存......任何建议将不胜感激!提前致谢
r - 根据条件 (R) 在数据框中制作中位数和四分位数的数据拆分列
如果我以 mtcars 为例:
如何添加另外两列,一列指示值低于/高于中位数,另一列指示值在哪个四分位数?但是,我希望每组cyl
.
这是我希望的具体结果:
我会很感激帮助。谢谢你。
编辑以下 akun 的回答
在该quartile_split
列中,akun 的答案在每个 cyl 组中留下了最低值NA
。我想我可以通过添加来解决这个问题:
所以完整的代码是:
但是,当我更仔细地看时,我也发现了另外一些看起来不太对劲的地方,具体来说,当你只看cyl = 6
组时,你会看到:
该组的中位数disp
为 163.8,因此disp = 167.6
应将两辆车归类为“above_median”,而不是“below_median”。
我希望这可以以某种方式解决。再次感谢你。
arrays - 如何使用Matlab查找数组中四分位数的索引值?
我有一个尺寸为 1x3000 的向量。我在 Matlab 中使用百分位函数找到了百分位值。但我无法在向量内找到四分位数的索引值。
Idx 返回一个空值。我应该能够获得包含中值的索引值。