问题标签 [cumulative-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
399 浏览

python - SAS Proc Freq with PySpark(频率、百分比、累积频率和累积百分比)

我正在寻找一种在 PySpark 中重现 SAS Proc Freq 代码的方法。我发现这段代码正是我需要的。但是,它是在 Pandas 中给出的。我想确保它确实使用了 Spark 所能提供的最好的东西,因为代码将与大量数据集一起运行。在另一篇文章(也适用于这个 StackOverflow 答案)中,我还找到了在 PySpark 中计算分布式分组累积和的指令,但不知道如何适应我的目的。

这是一个输入和输出示例(我的原始数据集将有数十亿行):

输入数据集:

预期输出:

0 投票
1 回答
69 浏览

r - R将CDF列添加到DataFrame

假设我有以下 R 数据框:

在此处输入图像描述

Peril 和 Range 列都是因素。我想为计数和值创建一个累积分布列,如下所示:

在此处输入图像描述

我该怎么做?如果有帮助,我正在使用 dplyr。

0 投票
1 回答
274 浏览

r - 如何使用 ggplot2 绘制累积频率线图?

如果这个问题不言自明,请原谅我,但我仍在努力掌握 R 的更多功能。

我目前正在尝试使用 R 用我在 excel 中绘制的线条重新绘制累积频率。

这是我正在尝试重新创建的图表的图片

我认为我的很多问题都来自有很多没有数据的单元格,因为我不断收到警告:

警告消息:
1:删除了包含缺失值 (geom_path) 的 81 行。
2:删除了包含缺失值 (geom_path) 的 81 行。
3:删除了包含缺失值 (geom_path) 的 81 行。

这是因为每列代表一个记录频率,女巫只发生了 21 天,每个记录周期之间有 20 天的休息时间。

我的数据表

我尝试过使用geom_ steps()geom_points()但最终得到了这些:

使用 geom_step 生成的图形

用 geom_point 生成的图形

当我使用该geom_line()函数时,会创建轴但没有绘制任何内容。

使用 geom_line 生成的图形

x 轴上的日期看起来也很可怕,我尝试使用代码 + theme(axis.text.x = element_text(angle = 90))来旋转标签,但它仍然看起来很糟糕,我不确定它是否只是很多日期。

这是我一直试图为各种 geom 函数工作的代码:

我希望这一切都有意义,并提前感谢大家提供的任何帮助!

我使用read.csv("cf.csv").

我附上了dput(cf)下面的输出。

0 投票
3 回答
27 浏览

r - 根据一列的类别创建两列累积和

我喜欢在分配列中创建两个累积频率为“A”和“B”的列。

df = data.frame(id = 1:10, assignment= c("B","A","B","B","B","A","B","B","A","B"))

结果表将具有这种格式

如何概括超过 2 个类别的代码(比如“A”、“B”、C”)?谢谢

0 投票
1 回答
47 浏览

html - 在 Django 模板中运行总计

我列出了我的帐户交易的借方和贷方。现在我想在最后一列中运行总计,借方减去贷方加上先前到达的金额作为运行总计(如您所知)。谢谢你的支持。

我的观点:

我的html:

我的模板现在显示:

0 投票
1 回答
66 浏览

sql - Visual Basic 在 datagridview 中的累积频率

我正在寻找一种在 vb.net 中将累积总计列添加到我的 GridView 的方法,该列将显示该行中一个数字列的累积总计。所以基本上:

积分 | 运行总计

2 | 2

1 | 3

-0.5 | 2.5

1.5 | 4

我看到了一些关于使用 SQL Server 和其他数据库的累积总计的问题,但是我没有发现在不更改任何 SQL 的情况下严格使用 GridView,所以我想我会在这里发布我的解决方案。

0 投票
2 回答
484 浏览

python - 如何在 python 中使用 plotly 绘制累积数据?

我正在使用 Google colab 在 python 中使用 plotly 生成图形和图表。我有 6,97,000 行数据存储在csv我正在分析的文件中。我正在使用以下代码生成条形图,并且效果很好。

现在,我想要一个显示累积数据的图表。以下是我的数据集的示例。

我的预期输出是显示累积数据的条形图。电流输出:

在此处输入图像描述

预期产出

在此处输入图像描述

我尝试使用以下链接使用 cumsum 。 https://www.codegrepper.com/code-examples/python/cumulative+chart+python+plotly

并尝试使用以下代码将 Date 变量保持为 x 。

但是,当我使用此代码时,我的运行时崩溃。请帮忙!

0 投票
1 回答
72 浏览

python - 如何在python中的组级别生成累积唯一计数?

我在表单的数据框中有一些医院就诊医疗保健数据:

记录ID client_id date_of_encounter 医院 ID
1 MK456 2014-01-01 01J
2 JJ103 2016-04-01 02J
3 MK456 2014-02-26 01J
4 JJ103 2016-05-01 02H
5 MK456 2014-03-01 02H
6 JJ103 2016-06-06 02J

我想创建一个列,该列hospital_count是每个客户在date_of_counter. 我已经按client_idand排序了
date_of_counter。结果转换将是

记录ID client_id date_of_encounter 医院 ID 医院计数
1 MK456 2014-01-01 01J 1
3 MK456 2014-02-26 01J 1
5 MK456 2014-03-01 02H 2
2 JJ103 2016-04-01 02J 1
4 JJ103 2016-05-01 02H 2
6 JJ103 2016-06-06 02J 2

有些人建议使用 agroupby和的组合,cumsum()但我不太确定如何?

0 投票
1 回答
39 浏览

r - 基于条件的数据帧的 Dplyr 滚动更新

说我有一个数据框

我的目标是在每一行更新 stim1 和 stim2,即之前选择刺激的累积平均结果。

期望的结果

我正在尝试做的低效循环版本是

0 投票
2 回答
53 浏览

algorithm - 获取表中相关标签的频率 - 计算表还是 ml?

我有一个包含多个字符串标签的主表:

当我创建一个新行并插入第一个标签(例如“A”)时,我想通过查看现有行来获得与之相关的最常见标签的建议。

换句话说,我想知道每个标签(例如“A”)的相关标签的频率,并获得按最频繁排序的相关标签列表。

例如:

我的方法是迭代主表并动态创建一个包含以下内容的新表:

然后只选择带有标签“A”的行来提取有序的哈希[related_tag: freq]

这是最好的方法吗?我不知道是否有更好的算法(或使用机器学习?)...