问题标签 [cumulative-frequency]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - SAS Proc Freq with PySpark(频率、百分比、累积频率和累积百分比)
我正在寻找一种在 PySpark 中重现 SAS Proc Freq 代码的方法。我发现这段代码正是我需要的。但是,它是在 Pandas 中给出的。我想确保它确实使用了 Spark 所能提供的最好的东西,因为代码将与大量数据集一起运行。在另一篇文章(也适用于这个 StackOverflow 答案)中,我还找到了在 PySpark 中计算分布式分组累积和的指令,但不知道如何适应我的目的。
这是一个输入和输出示例(我的原始数据集将有数十亿行):
输入数据集:
预期输出:
r - 如何使用 ggplot2 绘制累积频率线图?
如果这个问题不言自明,请原谅我,但我仍在努力掌握 R 的更多功能。
我目前正在尝试使用 R 用我在 excel 中绘制的线条重新绘制累积频率。
我认为我的很多问题都来自有很多没有数据的单元格,因为我不断收到警告:
警告消息:
1:删除了包含缺失值 (geom_path) 的 81 行。
2:删除了包含缺失值 (geom_path) 的 81 行。
3:删除了包含缺失值 (geom_path) 的 81 行。
这是因为每列代表一个记录频率,女巫只发生了 21 天,每个记录周期之间有 20 天的休息时间。
我尝试过使用geom_ steps()
,geom_points()
但最终得到了这些:
当我使用该geom_line()
函数时,会创建轴但没有绘制任何内容。
x 轴上的日期看起来也很可怕,我尝试使用代码 + theme(axis.text.x = element_text(angle = 90))
来旋转标签,但它仍然看起来很糟糕,我不确定它是否只是很多日期。
这是我一直试图为各种 geom 函数工作的代码:
我希望这一切都有意义,并提前感谢大家提供的任何帮助!
我使用read.csv("cf.csv")
.
我附上了dput(cf)
下面的输出。
r - 根据一列的类别创建两列累积和
我喜欢在分配列中创建两个累积频率为“A”和“B”的列。
df = data.frame(id = 1:10, assignment= c("B","A","B","B","B","A","B","B","A","B"))
结果表将具有这种格式
如何概括超过 2 个类别的代码(比如“A”、“B”、C”)?谢谢
html - 在 Django 模板中运行总计
我列出了我的帐户交易的借方和贷方。现在我想在最后一列中运行总计,借方减去贷方加上先前到达的金额作为运行总计(如您所知)。谢谢你的支持。
我的观点:
我的html:
我的模板现在显示:
sql - Visual Basic 在 datagridview 中的累积频率
我正在寻找一种在 vb.net 中将累积总计列添加到我的 GridView 的方法,该列将显示该行中一个数字列的累积总计。所以基本上:
积分 | 运行总计
2 | 2
1 | 3
-0.5 | 2.5
1.5 | 4
我看到了一些关于使用 SQL Server 和其他数据库的累积总计的问题,但是我没有发现在不更改任何 SQL 的情况下严格使用 GridView,所以我想我会在这里发布我的解决方案。
python - 如何在 python 中使用 plotly 绘制累积数据?
我正在使用 Google colab 在 python 中使用 plotly 生成图形和图表。我有 6,97,000 行数据存储在csv
我正在分析的文件中。我正在使用以下代码生成条形图,并且效果很好。
现在,我想要一个显示累积数据的图表。以下是我的数据集的示例。
我的预期输出是显示累积数据的条形图。电流输出:
预期产出
我尝试使用以下链接使用 cumsum 。 https://www.codegrepper.com/code-examples/python/cumulative+chart+python+plotly
并尝试使用以下代码将 Date 变量保持为 x 。
但是,当我使用此代码时,我的运行时崩溃。请帮忙!
python - 如何在python中的组级别生成累积唯一计数?
我在表单的数据框中有一些医院就诊医疗保健数据:
记录ID | client_id | date_of_encounter | 医院 ID |
---|---|---|---|
1 | MK456 | 2014-01-01 | 01J |
2 | JJ103 | 2016-04-01 | 02J |
3 | MK456 | 2014-02-26 | 01J |
4 | JJ103 | 2016-05-01 | 02H |
5 | MK456 | 2014-03-01 | 02H |
6 | JJ103 | 2016-06-06 | 02J |
我想创建一个列,该列hospital_count
是每个客户在date_of_counter
. 我已经按client_id
and排序了
date_of_counter
。结果转换将是
记录ID | client_id | date_of_encounter | 医院 ID | 医院计数 |
---|---|---|---|---|
1 | MK456 | 2014-01-01 | 01J | 1 |
3 | MK456 | 2014-02-26 | 01J | 1 |
5 | MK456 | 2014-03-01 | 02H | 2 |
2 | JJ103 | 2016-04-01 | 02J | 1 |
4 | JJ103 | 2016-05-01 | 02H | 2 |
6 | JJ103 | 2016-06-06 | 02J | 2 |
有些人建议使用 agroupby
和的组合,cumsum()
但我不太确定如何?
r - 基于条件的数据帧的 Dplyr 滚动更新
说我有一个数据框
我的目标是在每一行更新 stim1 和 stim2,即之前选择刺激的累积平均结果。
期望的结果
我正在尝试做的低效循环版本是
algorithm - 获取表中相关标签的频率 - 计算表还是 ml?
我有一个包含多个字符串标签的主表:
当我创建一个新行并插入第一个标签(例如“A”)时,我想通过查看现有行来获得与之相关的最常见标签的建议。
换句话说,我想知道每个标签(例如“A”)的相关标签的频率,并获得按最频繁排序的相关标签列表。
例如:
我的方法是迭代主表并动态创建一个包含以下内容的新表:
然后只选择带有标签“A”的行来提取有序的哈希[related_tag: freq]
。
这是最好的方法吗?我不知道是否有更好的算法(或使用机器学习?)...