问题标签 [cumulative-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2837 浏览

javascript - d3 直方图在同一图表/图表中具有累积频率/分布线?

d3 很酷,我是新手。直方图有几个例子,我选择了这个。我对累积折线图、累积分布和累积频率进行了简短的搜索,所有这些都与 d3 相关,但没有找到像我要找的东西,但我找到的最接近的是这个,并且根据更好的解决方案,我会尝试去追求,看看我是否可以根据我的需要定制它。不过,理想情况下,我正在寻找类似于Excel 提供的东西就直方图而言,累积频率/分布线叠加在顶部(其轴/标签是右侧的 y 轴)。d3 是否有这样的等效功能(理想情况下可作为示例/演示使用)?这样我就有 1 个图表而不是 2 个。

如果没有现成的示例/演示,有什么技巧可以扩展我选择的直方图实现,在同一图表上使用累积频率线,右侧有一个轴标签?由于我是新手,我自己很难/很棘手。

0 投票
3 回答
151 浏览

r - R中二进制向量中具有0个分隔符的1块的累积计数

我有一个带有二进制向量的数据框,我想对其进行累积计数。但是,我想计算“1 组”而不是每个单独的 1,并在保留 0 分隔值的同时创建该计数的新向量。IE

变成

我该怎么做?

0 投票
1 回答
248 浏览

database - R: Counting the cumulative length of a factor in data.frame

I have this database:

And I want the cumulative number of match played by each player through time as a new column. I want to know, at any given time, how many matches each player have played. Like that:

It seemed easy to do, but I tried a coule of things with failed results every time. Thanks for your help!

0 投票
2 回答
1652 浏览

r - 在 R 中绘制 y 轴缩放为正态分布的累积分布

这是我第一次遇到在 Stack Overflow 上找不到的 R 问题 - 如果我没有找到任何东西的原因是我正在寻找的事物类型的特定术语,请原谅我我不知道(有吗?)。

我想将数据显示为累积频率。由于我更关注分布的边缘,因此将 y 轴缩放到正态分布会很有帮助。结果应如下所示: 在此处输入图像描述

我读过分位数-分位数图,但老实说,如果我想保留 X 轴,我不知道如何应用它们。

我尝试了base图形和ggplot2,但无法弄清楚。因此,我目前的解决方案是,例如

或者

0 投票
1 回答
71 浏览

matlab - 如何查找一个值是否位于直方图的边界之间?

我有一组经验数据(假设x=normrnd(10,3,1000,1);),其累积分布函数如下:

在此处输入图像描述

我也有一组数据x1=[11,11.1,10.1]。我想找到找到值的概率,x1如果它们来自分布x。如果它是一个连续的已知函数,我可以准确地评估它,但我想根据我拥有的数据来做。有什么想法吗?

手动我会在 x 轴上找到值并向上追踪到直线并穿过 F(x) 轴(见图 1)。

编辑:

所以我现在已经找到了如何获取绘制 F(x) 的数据

我认为现在是在 ydatax的间隔中 查找位置xdata以及随后在 ydata 中查找位置的情况。

例如

0 投票
1 回答
8541 浏览

r - 如何在 R 中创建累积图

R中是否有累积图包?或者我如何在 R 中创建累积图?例如,给定值 2、4、2、2,它们的值应在此处绘制为 2、6、8、10 d3 示例然后像其他累积记录一样形成阶梯模式

0 投票
2 回答
828 浏览

python - 通过另一个数组中的值阈值快速计数 numpy 数组的元素

给定一numpy组阈值,生成满足这些值的另一个数组的计数数组的最有效方法是什么?

假设阈值数组较小且已排序,而要计数的值数组较大且未排序。

示例:对于 的每个元素valueLevels,计算values大于或等于它的元素:

到目前为止,我已经尝试了列表理解方法。

  • np.array([sum(values>=x) for x in valueLevels])慢得令人无法接受
  • np.array([len(values[values>=x]) for x in valueLevels])是一个改进
  • 排序values确实加快了理解速度(在示例中,从约 7 毫秒到 0.5 毫秒),但排序的成本(约 8 毫秒)超过了一次性使用的节省

我现在最好的是对这种方法的理解:

这对我的目的来说是可以接受的,但出于好奇,

我想知道的是

  • 如果列表理解是要走的路,可以加快速度吗?或者,
  • 其他方法更快吗?(我有一种模糊的感觉,这可以通过在阈值数组上广播值数组来完成,但我不知道如何为np.broadcast_arrays().
0 投票
1 回答
412 浏览

algorithm - How to implement a cumulative product table?

Given the following problem:

There is a sequence of k integers, named s for which there can be 2 operations,

1) Sum[i,j] - What is the value of s[i]+s[i+1]+...+s[j]?

2) Update[i,val] - Change the value of s[i] to val.

I am sure most people here have heard of using a cumulative frequency table/fenwick tree to optimize the complexity.

Now, if I don't want to query the sum but instead I want to perform the following:

Product[i,j] - What is the value of s[i] * s[i+1] * ... * s[j]?

The new problem seems trivial at first, at least for the first operation Product[i,j].

Assuming I am using a cummulative product table named f:

  1. At first thought, when we call Update[i,val], we should divide the cummulative products at f[z] for z from i -> j by the old value of s[i] then multiply by the new value.
  2. But we will face 2 issues if the old value of s[i] is 0:

    • Division by 0. But this is easily tackled by checking if the old value of s[i] is 0.

    • The product of any real number with 0 is 0. This result will cause all other values from f[i] to f[j] to be 0. So we are unable to successfully perform Update[i,val]. This problem is not so trivial as it affects other values besides f[i].

Does anyone have any ideas how I could implement a cummulative product table that supports the 2 operations mentioned above?

0 投票
1 回答
162 浏览

r - R计数器,表中的计数频率

我有以下数据集

我想要一个额外的列,它计算 id 变量已经可用的年数:

数据集目前未按年份排序。我想到了 mutate 而不是函数。

有任何想法吗?谢谢!

0 投票
1 回答
751 浏览

python - 如何在pyspark数据框中找到没有分组的累积频率

我在 pyspark 数据框中有一个计数列:

我想要一个结果数据框:

我不能使用 pandas 数据框,因为数据库非常大。我找到了指向窗口分区的答案,但我没有这样的列来分区。请任何人都可以告诉如何在 pyspark 数据框中执行此操作。注意:pyspark 1.6 版