问题标签 [cumulative-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
97 浏览

python - 计算熊猫中相应值的频率[python 3]

我有具有以下值的数据集:

我需要对 var1 列中的每个唯一值进行计数并显示 var2 中相应值的前 3 个频率计数,并获取输出,例如:

这样做最有效的方法是什么?

0 投票
2 回答
867 浏览

python - 字符串出现的累积频率

首先,关于我的问题。

我有一个按年份索引的冠军联赛杯冠军数据框。

像这样,注意团队名称是字符串。

我想创建一个包含累积胜利的新列,这样我就可以绘制每支球队的折线图以及他们赢得杯赛的次数。即我需要 x 轴上的年份和 y 轴上的累积频率,前 4 支球队有 4 条不同的线。

使用 count 函数和循环可能有一种简单的方法,但我对 python 还很陌生,对这些不太了解。任何帮助将非常感激!

0 投票
0 回答
100 浏览

python - 可视化两个分布之间的差异

我正在尝试可视化两个分布之间的差异(最好使用 python)。我已经绘制了累积频率分布以及内核密度估计: kde累积频率

但是,我的观众不习惯看这样的图表,所以我想只绘制分布之间的差异并对其进行缩放,以便(视觉上)它们之间的差异更加明显。我发现这篇文章的第一个答案显示了使用 R 的解决方案。我没有使用 R 的经验,所以我想知道是否有办法使用 Python 来实现它。编辑:我试图绘制差异,而不仅仅是遮蔽不同的区域。就像链接答案的第三个图(abs(ydiff))一样。将其包含在原始图中,例如第一个图中的“5*密度差”阴影区域会很好,但不是必需的。

或者,如果有人对如何在视觉上强调两个分布之间的差异有其他想法,我很想听听!

0 投票
0 回答
196 浏览

csv - 累积频率表和图表输出

我正在处理一些与期货价格相关的相当大的时间序列数据集,并且正在将我之前在 Excel 中进行的一些计算转换为 R。到目前为止,这种转换相对简单,但我有一些我在 Excel 中使用 R 中的累积频率分布复制直方图时遇到了麻烦。如果您熟悉 Excel,数据分析工具包中的直方图函数会自动创建一个累积频率分布表,其中每个表的累积百分比,在本例中为价格水平,位于直方图旁边。

我已经成功地使用 ggplot 创建了一些基本的直方图,这是该代码的片段:

关于格式和用法的几个问题。

a) CrudeRaw 是一个包含大约 276 行且不少于 50 列的数据框。出于本项目的目的,我将数据分为 20 个周期、60 个周期、120 个周期、180 个周期和 240 个周期子集。数据按日期按时间顺序排列。

问题:ggplot 不能采用数字数据类型,只能采用数据帧,因此即使我有兴趣为上述子集创建分布,我也只能将其提供给整个 df。有没有办法我仍然可以做到这一点?

b) 如何让每个箱(价格)显示在 x 轴上,而不是每 5 个箱(-15、-10、-5、0、5 ...、15)标记一个数字?

c)我已经使用以下代码成功创建了累积频率表,

但是我想要一种方法来a)将这些表中的每一个(其中有很多)输出到一个CSV文件或者,理想情况下使用R创建一个可以保存到pdf的“报告”,或者甚至可以在其中表/数据关联的直方图。

d) 我已经对如何将数据输出到 CSV 文件进行了一些搜索,但是从示例中并不清楚我如何将多个数组输出到同一个工作表或工作簿,整体。也就是说,我想将我的 20、60、120、180 和 240 周期价格数组输出到同一个工作簿。我在想,通过创建另一个数据框,然后我可以将这些数据子集传递给 ggplot 函数,就像我提到的那样,我在 a) 部分中遇到了麻烦

e) 最后(目前)我如何将 CFD 叠加到我的直方图上?

如果您需要任何其他信息或颜色以帮助我,请告知,并提前非常感谢您的回复!

0 投票
0 回答
1104 浏览

r - ggplot与组的累积频率

我想为两组构建累积计数并将其重新加权为 1 级。

我知道在这种情况下如何绘制密度:

这是情节: pdf

但是,如果我尝试绘图cumsum,我会得到以下图片:cdf

如您所见,第二行开始于第一行结束的水平。

有解决办法吗?我总是可以尝试手动进行计算并绘制它,但我想知道是否有 ggplot 解决方案?我在 SO 上找到了一些解决方案,但它们不涉及将数据缩放到 1 级。

0 投票
0 回答
72 浏览

r - lines.etm(x[[i]], tr.choice = tr.choice[j], col = col[j + (i - : 参数 'tr.choice' 和可能的转换必须匹配) 中的错误

尝试在 R 中绘制 cif 数据时:

plot(cif.kweet)弹出这个错误: "Error in lines.etm(x[[i]], tr.choice = tr.choice[j], col = col[j + (i - : Argument 'tr.choice' and possible transitions must match",这是什么意思,如何解决?

附加信息:

cif.kweet <-etmCIF(Surv(entry, exit, cause !=0) ~ group, data, etype=data$cause, failcode=3)

0 投票
2 回答
4248 浏览

python - 使用 2 列的累积和

我正在尝试创建一个使用 2 列进行累积总和的列,请参阅我正在尝试做的示例:@Faith Akici

我使用了下面的代码,但是我的电脑一直在崩溃,我不确定是代码还是电脑。任何帮助将不胜感激:

更新 ; 我也使用了下面的代码,它工作并说退出代码 0。但是有一些警告。

0 投票
1 回答
34 浏览

sql - 出现一组新数据时重置累积数字

我有这张表(减去 cuml 列):


我想要做的是返回同一张表,但这次最后有 cuml 列。我试过这个……<br>

这很好,但是正如您从我的表格中看到的那样,其他列构成了更大的挑战。如何计算具有相同名称、网站、页面、水果类型、平台的每一行的累积频率,唯一的区别是年周的增量,当它遇到一组不同的名称、网站、页面时,等等,我需要 cuml 列重置为该更改的总视图,并继续计算 cuml,直到它遇到一组新数据等并需要重置。所以在这个例子中,第 2 行(avocado.com)有 cuml。最多 28(第 4 行),然后在出现新数据/周时重置为 21 的总视图并继续重置,直到它到达第 8 行和第 9 行,在那里它开始将前一行添加到 cuml 中(23+15 = 38)...然后将其重置为 6 作为其新数据等。

我不完全确定我能做些什么来解决这个问题。

我在考虑滞后功能?与某种触发语句混合?

0 投票
1 回答
43 浏览

sas - 寻找三年的中点

我有一个数据集,它代表三年内的销售额:

我正在寻找一种方法来找到三年的中间点,平均销售点

更新的数据集将读取

因此,本质上是在寻找销售的中点发生在三年中的哪一部分。

欣赏。

编辑:我一直在尝试的重量和过程意味着

我一直在尝试使用 proc 方法和权重函数,但它并没有给我三年的平均分

0 投票
1 回答
102 浏览

scipy - 计算两个样本的累积分布

我正在查看ks 测试(2 个样本)的 scipy 代码,它计算任何两个给定样本的 CDF 之间的最大距离。计算累积分布函数的代码(CDF)

我无法理解计算 cdf 的逻辑。首先,data1data2被排序,然后使用np.searchsorted我们试图找到 和 中的data_all位置。只不过是 sorted和的串联。data1data2data_alldata1data2

如果 的最小值data2低于data1. cdf这不违反不应随价值减少的假设吗