问题标签 [quantile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R:每月将变量分配给五分位数
在这种情况下,我试图在 R 中根据波动性来指示我的数据框每个月的变量值在哪个五分位数中。对于每个月,我都想知道每只股票是否处于波动最大的五分之一,或者是否在其他股票中。
到目前为止,我已经提出了以下功能(见下文)。不幸的是,该功能仅在某些情况下有效,并且经常出现以下错误:
您能否就如何改进此代码以使其正常工作给我一些建议。
比较紧急。非常感谢!
数据示例:最后一列是我想要得到的。这里的数据只是一个例子,而不是实际结果。
r - 使用十分位数定义地层
我有一个调查数据集,想用十分位数来定义地层,U1 =(数据集中的所有单位都在 D0=min 和 D1 之间),U2=(在 D1 和 D2 之间).....U10=(在D9 到 D10 = 最大值)。
如何使用十分位数来定义地层?
r - 使用 Hmisc 中的 cut2 计算不同组数的切割
我试图通过使用 Hmisc 中的 cut2 来计算向量的等分位数切割。
但我期待以下结果(33%、33%、33%):
我应该继续使用 cut2 还是尝试不同的方法?我怎样才能让它工作?谢谢你的建议。
r - R 中的 Decile 函数 - 嵌套的 ifelse() 语句导致运行时间不佳
我写了一个函数来计算向量中每一行的十分位数。我这样做的目的是创建图形来评估预测模型的功效。必须有一种更简单的方法来做到这一点,但我已经有一段时间无法弄清楚了。有谁知道如何在没有这么多嵌套 ifelse() 语句的情况下以这种方式对向量进行评分?我包含了该函数以及一些代码来复制我的结果。
r - 分位数回归的置信区间是多少?以及如何找到默认值以外的内容?
有一种方法可以构建分位数回归的置信区间:
什么是默认值?是5%吗?如何找到另一个,比如 10%?
r - R,基于方差截止的滤波器矩阵
请参阅下面的编辑 使用 R,我想过滤(基因表达数据的)矩阵并仅保留具有高方差值的行(基因/探针)。例如,我只想保留在底部和顶部百分位数中具有值的行(例如,低于 20% 和高于 80%)。我想将我的研究限制在仅用于下游分析的高方差基因。R中是否有通用的基因过滤方法?
我的矩阵有 18 个样本(列)和 47000 个探针(行),其值经过 log2 转换和归一化。我知道该quantile()
函数可以识别每个样本列中的 20% 和 80% 截止值。我不知道如何为整个矩阵找到这些值,然后对原始矩阵进行子集化以删除所有“不变”行。
平均值为 5.97 的示例矩阵,因此应删除最后三行,因为它们包含 20% 和 80% 截止值之间的值:
我将不胜感激任何我应该研究的建议或功能。谢谢!
编辑
对不起,我在OP中不是很清楚。(1) 我想知道整个矩阵的 20% 和 80% 截止值(不仅仅是每个单独的样本)。(2) 然后,如果任何行包含上百分位数或下百分位数的值,R 将保留这些行。如果一行包含接近平均值的值(对于所有样本),则这些行将被丢弃。
r - lattice::xyplot 用于来自分位数回归输出的多条线
这是一个 data.frame,其第三个“列”实际上是一个矩阵:
它是使用以下代码创建的:
我想要一个按性别和 tau 水平预测的线图。我可以得到一个点图:
当我添加 type="l" 时,线条来回摆动,连接tau
.
我怀疑它是否重要,但在 Mac 10.7.5 上使用 quantreg_4.96/rms_3.6-3/Hmisc_3.10-1 运行。如果你想给我看一个经典主题的 ggplot 解决方案,我也可以,只是我对 ggplot2 不是很好,而且 Harrell 的 rms 包与 lattice 配合使用。
r - data.frame 的分位数
有一个 data.frame() 我想计算分位数的列:
但是结果只包含分位数返回列表的最后一个元素,而不是整个结果。我也收到警告longer argument not a multiple of length of shorter
。如何修改我的代码以使其正常工作?
PS:这个函数本身就像一个魅力,所以我可以使用一个 for 循环:
PPS:同样有效的方法是未指定probs
statistics - 在处理指数数据集时,使用 mquantiles() 准确吗?
我试图找到最准确的函数来给我数据集中给定值的分位数。数据集(可能)总是呈指数分布。
我使用的方法如下(如果编码很差,我深表歉意,因为我真的是一个基础设施专家,不是统计人员,也不是日常开发人员):
在我的研究过程中,我注意到有几个更高级的功能可以使用,例如scipy.stats.[distribution type].ppf()
.
使用这些有什么好处mquantiles()
?
有没有一种方法可以有效地确定数据集中数据的分布(这是我关心的问题scipy.stats.[distribution type]()
)?
谢谢,
马特
[更新]
在与“统计老兄”讨论后,我相信如果您不知道分布,这种方法(他称之为“经验方法”)同样有效。要找到分布,您可以使用Kolmogorov–Smirnov 检验,该检验通过scipy.stats.ksone
和scipy.stats.kstwobign
确定分布,然后使用其中一个scipy.stats.[distribution type].ppf()
函数。他还说没关系,上面的方法和做这些工作一样好,回报很少。尽管他警告说,上述方法的强度会随着可用数据量的增加而增加data
(这意味着反之亦然),但没有人解决了对小数据集应用法律的问题。
我要做的是考虑数据集的强度,并对我的结果赋予权重,并在数据集“小”时认为它更加模糊/权重更小。什么是“小”?我不肯定。
我仍然想找到其他人关于有效使用 ppf() 与 mquantile() 的意见。
d3.js - 用 scale.quantile() 绘制折线图
我正在尝试绘制一个正态分布数据的排序数组,以便它绘制为直线。我想使用累积密度函数来做到这一点,我认为它也被称为分位数函数。不幸的是,我还没有找到很多使用分位数的例子。
这是我使用分位数的尝试:http: //jsfiddle.net/tbcholla/hmFqJ/3/。我以这种方式设置了我的 x 比例:
并以这种方式画出我的线:
谁能帮助解释我在绘制分位数刻度时哪里出错了?分位数尺度可以用作累积密度函数吗?有没有使用这种规模的例子可以指点我?