“cumulative-frequency”的相关标签问题

0 投票

0 回答

277 浏览

r - 累积 X 和 Y 数据的 R 非线性回归

我试图弄清楚如何对 X 和 Y 值的一些累积数据进行非线性回归。该数据集基于累积项目及其各自的累积需求。我有一个看起来像这样的情节

累计项目累计需求

基于对 5299 项的以下观察，可在此处获得：abc.csv 数据文件

我想拟合一个可以很好地解释它的模型。鉴于情节，我认为有高度的细节。因此，我相信有可能找到一个可以非常准确地解释数据的函数。

然而，问题是我发现自己试图nls()通过反复试验来拟合模型。此外，我尝试过的一些功能给了我一些解释，但不是很详细。例如

nlm <- nls(abc$Cumfreq ~c*(1-exp(-a*abc$noe))+b, data=abc, start = list(a=4.14, b=0.21, c=0.79))

让我：

随着回归

我的问题是：如何获得更适合的回归？R中是否有功能或其他实现此功能的方法？（为那里的数学天才祈祷）

2018-11-20T23:25:38.427

0 投票

1 回答

1087 浏览

python - 使用 seaborn 可视化缺失数据的出现频率

我想创建一个 24x20 矩阵（8 个部分，每个部分有 60 个单元格或 6x10），用于通过 panda 数据框在数据集中通过周期（=每个480 个值）可视化缺失数据出现的频率，并为每一列绘制它，，.'A''B''C'

到目前为止，我可以映射创建的 csv 文件并在矩阵中以正确的方式映射值，并sns.heatmap(df.isnull())在将缺失数据（nan & inf）更改为对数据影响最小的0东西或类似0.01234的东西后绘制它，另一方面可以被绘制。以下是我到目前为止的脚本：

问题是我不知道如何正确绘制缺失数据发生的频率以了解它经常发生在哪些部分和单元格中。

注1缺失值越多，颜色越亮，循环中 100% 的缺失数据应以白色表示，纯黑色表示非缺失值。可能有一个从黑色 0% 到 100% 白色的条形图。

注2我还提供了 3 个周期的数据集示例文本文件，包括少量缺失数据，但可以手动修改和增加：数据集

预期结果应如下所示：

python seaborn missing-data find-occurrences cumulative-frequency

2019-01-28T01:23:02.060

0 投票

1 回答

444 浏览

sql - 在大查询中按月和年分组的日期频率中填充零

我有一张带有hiredate (Date)、First Name (String) 和 Sur Name (string) 的表，如下所示：

我查看了hire_dates(DATE) 的频率和另一列中的累积频率，如下所示：

查询如下：

但是我需要在那些没有计数的地方按月和年查看数字，这些数字是这样的：

提前致谢。

sql google-bigquery fill cumulative-frequency

2019-02-14T14:43:13.707

0 投票

1 回答

106 浏览

python - 在数据框中寻找累积特征？

我有一个包含大约 200 个功能和 3000 行的数据框。这些数据样本是在不同的时间记录的，基本上是每月一次，如下面的“col101”示例所示：

在这些特征中，有些是累积数据，因此每个月它们的值都会增加。例如， col2 和 col100 是我的数据框中的累积特征。所以我想为每个累积特征添加一列，与上个月有所不同。所以我想要的数据框应该是这样的：

现在，我这里有两个问题：1）如何自动识别具有 200 个特征的累积特征？以及如何为每个累积属性添加额外的功能（例如 col22c 和 col100c）？有谁知道我该如何处理？

python dataframe feature-extraction cumulative-sum cumulative-frequency

2019-03-16T08:53:22.907

0 投票

2 回答

130 浏览

r - 在 R 中给定特定条件的累积频率

我是 R 的新手，如果 ID 相同但日期不同，我真的不知道如何计算行的累积出现次数。此外，如果第一个日期出现多次，则不应计入第一次尝试.查看第 2 行和第 3 行，这就是为什么我要构建的列称为“计数”并且等于零。“count”表示 id 出现的次数，但它遵循以下两条规则：

1.如果它是 Id 的第一次出现，它分配零。例如，对于 ID 1，尽管该 ID 的第一个日期有两个不同的寄存器，但“计数”等于零。

2.对于下一个 Id 1 出现（Id1 的第 3 行），它具有不同的日期，这就是“计数”等于 2 的原因。因为 01/01/2018 Id1 出现了两次。

这是 DT，我正在寻找的结果在“计数”列中：

r multiple-conditions cumulative-frequency

2019-05-26T02:41:57.247

0 投票

2 回答

326 浏览

sql - 使用 SQL 查询计算每日频率的累积计数（在 Amazon Redshift 中）

我有一个包含“UI”（唯一 ID）、时间、频率（在 UI 列中给出值的频率）的数据集，如下所示：

我想添加一个名为“daily_frequency”的新列，它只是按顺序计算给定日期的 UI 列中的每个唯一值，如下图所示。

例如，如果 UI=114737 并且在一天内重复 2 次，我们应该在 daily_frequency 列中有 1 和 2。

我可以使用 Python 和 Panda 包使用 group by 和 cumcount 方法来做到这一点，如下所示......

但是，出于某种原因，我必须通过 SQL 查询 (Amazon Redshift) 来执行此操作。

sql amazon-redshift window-functions cumulative-frequency

2019-07-05T12:36:46.727

0 投票

1 回答

44 浏览

powerbi - PowerBI - 在与时间无关的数据列上运行总计

我试图在这里使用公式来计算 PowerBI 中一列的运行总计。但是，我的数据与时间无关。此外，我在 PowerBI 中看到的所有其他运行总计计算都参考了日期字段。目标列是“频率”列，表示每条记录所代表的事件的估计频率。如何生成这些频率的累积总数，从最低频率到最高频率？这用于根据运行频率总和生成事件后果的超出曲线，称为 FN 曲线。

powerbi cumulative-sum cumulative-frequency

2019-10-29T15:46:33.913

0 投票

1 回答

466 浏览

python - 频率python中带有bin的累积直方图

我正在寻找一个python函数来获得具有规则间隔频率（y轴）而不是值（x轴）的频率累积曲线。在这张图片上，点的采样在 x 轴上是有规律的，我希望它在 y 轴上是有规律的。

该函数的输出将是常规百分位数，从 0 到 100，步长为 n，以及对应于这些百分位数的值。

它将对应于scipy.stats.cumfreq但数字对应于 y 轴（频率或百分比）而不是 x 轴（值）。

此功能是我正在寻找的草稿：

python numpy scipy cumulative-frequency

2019-12-03T14:35:14.097

0 投票

2 回答

42 浏览

r - 为 R 中的 5-李克特量表生成所有可能总体的算法（每个级别的累积频率为 0.1）

我想以 5-likert 量表生成所有可能的人群，其值是每个级别中 0.1 的累积频率），例如：

等等...

我尝试过一些基本的循环，例如：

我知道它既不聪明也不高效，但是 sum = 1 的行是我想要的一些情况，但这还不够。

我真的很感激任何帮助。提前致谢。

r loops cumulative-frequency likert

2020-02-19T13:28:58.010

0 投票

2 回答

50 浏览

r - 如何从一组观察中生成经验 cdf？

假设我有一个向量x = c(1, 1, 3, 0, 4, 5, 4)。我想问一下是否有一个函数可以生成这个数据的cdf。我想要的结果是

我试过函数ecdf(c(1, 1, 3, 0, 4, 5, 4))，但我不明白这个函数的结果值

你能帮我生成这个cdf吗？太感谢了！

r cdf cumulative-frequency

2020-03-19T19:05:40.587

问题标签 [cumulative-frequency]

Reference