问题标签 [percentile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
matlab - 在 matlab 中找到第 15 和第 85 个百分位数
我想出了一个 matlab 代码来绘制概率密度和累积图。我已经使用 matlab 来计算标准偏差和平均值。我的下一个任务是找到累积图的第 15 个和第 85 个百分位。我尝试使用 'prctile (prob, 15)' 来计算第 15 个百分位数,但它似乎与我从图中观察到的值不同。
还有其他方法可以找到第 15 和 85 个百分位数吗?
mysql - 有什么方法可以在同一个查询中获得第 95 个百分位数并求和?
我有一个大的 MySQL 表,即使正确索引,每个查询也可能需要 1 秒(听起来并不多,但它运行在数千台服务器上)。现在,我有四个查询来获得第 95 个百分位的入站、第 95 个百分位的出站以及两者的总和。
查询 1:获取行数以获取第 95 个百分位行
查询 2&3 得到第 95 个百分位数
查询 4 获取流量总和
你能想到我可以结合这些的任何方式吗?我面临着想办法的挑战,因为我需要得到第 95 个百分位数,这是通过根据计数选择特定行来计算的。例如,如果有 10000 行,则按升序排列并选择第 9500 行。
algorithm - 使用固定内存量计算百分位数
我有一个以一定速率到达的 int 值流。每 5 分钟,我想根据这些值计算一些百分位数,然后重新开始。
问题:我不想浪费太多内存,所以我只想保留几个 KB 的值。如果我的缓冲区在 5 分钟内没有填满,我可以完美地计算百分位数。但是,如果缓冲区确实填满,我想开始删除一些值(可能使用此处建议的水库采样和随机驱逐 - Percentiles of Live Data Capture)。不幸的是,我找不到在这两种情况下都适用的解决方案 - 如果缓冲区未满,我不想驱逐或忽略值,一旦它满了并且我开始驱逐,我总是会引入偏见。
r - R:数据子集的百分位数计算
我有一个数据集,其中包含以下标识符、rscore、gvkey、sic2、year 和 cdom。我要做的是根据给定 gvkey 的所有时间跨度(~1500)的总 rscores 计算百分位等级,然后根据 gvkey 计算给定时间跨度和 sic2 中的百分位等级。
计算所有时间跨度的百分位数是一个相当快的过程,但是一旦我加入计算 sic2 百分位数排名,它就会相当慢,但我们可能总共查看约 65,000 个子集。我想知道是否有可能加快这个过程。
一个时间跨度的数据如下所示
计算行业排名的代码如下,相当简单。
任何加快该过程的建议将不胜感激!
mysql - 使用 MySQL 计算百分比值
我有一个包含数千行的表,我想计算其中一个字段的第 90 个百分位,称为“round”。
例如,选择第 90 个百分位的 round 值。
我看不到在 MySQL 中执行此操作的简单方法。
有人可以就我如何开始这种计算提供一些建议吗?
谢谢!
excel - PercentileIF Excel (or rangeif)
A B 1 5 2 10 2 15 3 20
I want to calculate percentile for a column of values B if A is equal say 2. That's I want to get range of B2,B3 and calculate percentile of this.
So basically the question is: how do I select range in one column with the checking with another column?
I.e. it works perfectly with SumIf and CountIf, I just need the same with PercentileIf. Thx!
java - 计算列表中每个值的百分比分数
我一直在寻找一种方法来计算给定列表中每个值的百分位排名,但到目前为止我一直没有成功。
org.apache.commons.math3
为您提供了一种从值列表中获取 pth 百分位数的方法,但我想要的是相反的。我想对列表中的每个值进行排名。有没有人知道一个库或 Apache 公共数学中的一种方法来实现这一点?
例如:给定一个值列表{1,2,3,4,5}
,我希望每个值的百分位数排名,最大百分位数为 99 或 100,最小值为 0 或 1。
更新代码:
有人可以让我知道这是否正确,以及是否有一个图书馆可以更干净地做到这一点?
谢谢!
r - 首先手动计算分位数的置信区间(而不是在 R 中)
如果有人可以检查我的方法是否正确,那就太好了。简而言之,问题是,如果错误计算是正确的方法。假设我有以下数据。
此外,我想检查我的数据是否遵循正态分布。
编辑:我知道有测试等,但我将专注于构建带有置信度线的 qqplot。我知道汽车包里有一个方法,但我想了解这些线路的构建。
所以我计算了我的样本数据以及我的理论分布的百分位数(估计mu = 24.6609
和sigma = 1.6828
。所以我最终得到了这两个包含百分位数的向量。
现在我想计算alpha=0.05
理论百分位数的置信区间。如果我记得自己是正确的,则公式由下式给出
和。n=length(data)
_z=quantil of the normal distribution for the given p
因此,为了获得第二个百分位数的置信区间,我将执行以下操作:
插入值:
最后我有
其余的也一样......
那你怎么看,我可以去吗?
matlab - 以百分比表示的 y 轴直方图和 x 轴正常增量 Matlab
x = 兰德(1000,1);
条形(历史(x)*100/长度(x));轴(10、2、100)
我遇到的问题是 x 轴从 1 到 10 表示,我需要将它们从数组中的最低数字分组到最高数字。因此,如果最低为 200,最高为 900,则我需要 x 从 200 到 900 递增 70。如果我更改轴,则条形宽度和位置保持不变。因为我把它放在工作中,所以没有随身携带代码。
python-2.7 - pandas.DataFrame.describe() 与 numpy.percentile() NaN 处理
我注意到 pandas.DataFrame.describe() 和 numpy.percentile() 处理 NaN 值的方式有所不同。例如
Pandas 在百分位数计算中会忽略 NaN 值,而 numpy 不会。是否有任何令人信服的理由将 NaN 包含在百分位数计算中?看来 Pandas 正确地处理了这个问题,所以我想知道为什么 numpy 不会做出类似的实现。
开始编辑
根据 Jeff 的评论,这在重新采样数据时会成为一个问题。如果我有一个包含 NaN 值的时间序列并且想要重新采样到百分位数(根据这篇文章)
将在计算中包含 NaN 值(就像 numpy 一样)。为避免这种情况,您必须改为放置
也许一个 numpy 请求是有序的。就个人而言,我认为没有任何理由将 NaN 包含在百分位数计算中。在我看来,pd.describe() 和 np.percentile 应该返回完全相同的值(我认为这是预期的行为),但是它们不容易被遗漏的事实(这在文档中没有提到) np.percentile),它可以扭曲统计数据。这是我的担忧。
结束编辑