问题标签 [summarize]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
137 浏览

r - 在新的 dplyr 版本中破坏 NSE 功能

更新到最新版本的软件包dplyr时,我使用 NSE 的功能会中断。我想知道新版本如何改变它以及如何修复它。我尝试在每个变量名之前使用.data$and .env$,但似乎无法正常工作。

这是我的自定义函数:

这就是我使用它的目的(从变量计算加权平均值):

上面的代码在更新之前运行良好。现在我得到:

0 投票
2 回答
17810 浏览

stata - 在Stata中详细汇总后计算中位数

summarize命令在 Stata 中创建各种标量。例如,可以在gen mean=r(mean)之后存储平均值或最小值/最大值。也可以通过该summarize varname, detail选项获得更复杂的措施。通过这个,也得到了中位数形式的中位数。

我的目标是存储中位数。有对应的标量吗?

在标准操作之后,我在哪里可以获得有关存储标量的信息summarize?据我所见,它们没有列在 Stata 手册中。

0 投票
1 回答
2302 浏览

r - 汇总列表中数据框的均值

我在一个列表中有一些数据帧,它们都具有相同的结构——在这个例子中,变量 a、b 和 c。现在我想总结一下列表中值的平均值。

我试图给 dplyr 喂食,lst %>% summarize_all(mean)但他不喜欢列表。下面的公式为我提供了列表中每个数据帧的均值,但尚未提供所有数据帧中这些变量 a、b 和 c 的均值。

所以我想用汇总的输出制作一个新的数据框,以便再次汇总它们,但这失败了,我的扩展公式和相关答案都抛出了Error in lst[[idx]] : subscript out of bounds 这是我的尝试:

我怎么能得到我想要的?

0 投票
2 回答
631 浏览

r - 在 R 中使用 dplyr 时无法在数据 tbl 中获得每组的总和

我正在使用 dplyr 尝试根据 3 个组获取 6 个变量的平均值,并且我还希望获得每个单元格的计数(即,我想为每个组变量对添加一列计数)

我的代码是这样的:

变量都是 0 或 1,所以求和就像计数。但我得到的是每个变量重复 3 次的总和,而不是每组应该是的总和。怎么了?

0 投票
1 回答
686 浏览

r - R中的条件求和(ddply,summary,sum)

我有一个数据框,其中包含 6 个不同变量的观察结果和每个变量的样本权重。我正在尝试使用ddplywithsummarize创建一个新的数据框,其中六个变量中的一个成为第一列,其他变量是其他变量的加权和。

例如,我的数据框看起来像这样:

我想创建一个每个位置只有一个值的数据框,然后将每列中每个条件的 SampleWeights 以及总数相加。它看起来像这样:

这就是我尝试的方式,并且我已经让总列工作,但我不确定如何制作一个过滤器,以便总和只会查看另一列中具有特定值的行。我已经包括了一些我尝试过的东西:

有没有更简单的方法来做到这一点?有没有制作这种文件的好方法?

太感谢了!!

0 投票
0 回答
152 浏览

r - 最后一行和行满足条件dplyr之间的区别

这可能很容易,但是在分组数据框中,我试图找到最后一行和 var.col 为 B 的行之间的差异。该条件在每个组中只出现一次。我想使用来自 dplyr 的 summarise 来使这种差异成为一个新变量。

我想将其保留在 dplyr 中,并且我知道如何对其进行编码,除了选择 diff.col where var.col==B。

0 投票
2 回答
1001 浏览

r - 在循环中汇总并生成多个变量

我正在寻找一种有效的方法来操纵数据框中的多个变量。现在我正在使用 dplyr,但是随着变量的增加,这变得很麻烦。假设我有以下数据框,其中 brd 是汽车品牌,ye 是年份,type 是汽车类型,cy 和 hp 是类型特征。

对于每一年,我想计算同一品牌的所有其他产品的产品特征总和,并将其作为新变量添加到数据框中。现在,我正在像这样使用 dplyr:

所以我得到

有没有更有效的方法?我正在考虑像这样的stata代码循环:

任何建议将不胜感激。

0 投票
2 回答
738 浏览

r - 无法在 R 中正确应用 ddply-summarise

新来的和 R 的新手,所以请耐心等待。

我有一个类似于这样的data.frame:

我正在尝试应用于ddply()此数据框以获取具有均值和标准误差(稍后绘制)的新数据框,如下所示:

作为输出数据框,我得到TEERmean列中的值与原始数据框的第一行中的值相同,sd并且列中的值为零sem。还有一个错误:

警告信息:

levels<-( *tmp*, value = if (nl == nL) as.character(labels) else paste0(labels, : 不推荐使用因子中的重复级别

看起来该函数仅通过数据框的第一部分,并且不费心查看time.variable组的重复项?

我已经尝试在这里查看类似问题的解决方案,但似乎没有任何效果。我错过了什么还是这是一个合法的问题?

任何帮助/提示表示赞赏。

PS如果我没有足够连贯地解释问题,请告诉我,我会尝试更详细地介绍。

0 投票
1 回答
281 浏览

r - Summarise_each 和 dplyr 语法

我得到了一组特别混乱的数据。其中有三列表示相同的因子变量 - focus1、focus2 和 focus3,其中每个数据观察可能包含多个焦点,但它们不是量度度量,即 focus1 中给出的焦点不一定是更强的焦点比focus2。我需要将这三个变量扩展为针对合并焦点变量的每个可能级别的指标变量。为此,我使用了下面的代码,昨天它在我的 PC 上运行良好,但我在办公室的 Mac 上工作,现在遇到了问题。

我遇到了两个问题:

  1. summarise_each 似乎已在 Mac 而不是 Windows 上过时?这里的答案似乎是使用 summarise_at。我可以使用相同的 x:y 符号来表示要汇总的列吗?这很重要,因为第一个索引和最后一个索引之间大约有 20-30 列。
  2. 由于某种原因,R 不再识别我在管道符号中引用的列名。我收到一个错误“ eval_bare(dot$expr, dot$env) 中的错误:找不到对象‘Arts’ ”。

我也很好奇,是什么导致了在 Windows 和 Mac 上操作之间的这些差异?我不得不想象它是包/RStudio 本身的不同版本,但它正在创造一个相当大的难题。

0 投票
1 回答
34 浏览

r - ddplyr 中的标准偏差函数未在熔化的数据帧上返回值

我有一个由 3 个位置值(XYZ)和 3 个旋转值(Omega、Phi、Kappa)组成的数据集。

头(pos.df)看起来像这样

然后我融化数据

dfl <- melt(pos.df, id.vars = c("Batch", "PhotoID"))

这样头部(dfl)

和尾巴(dfl)

现在我想看看一些汇总统计数据......

但由于某种原因,SD 和 SE 值返回 NA。

头(笑)

我检查了数据类型...

str(pos.df)

谁能告诉我为什么我的sd()se函数没有返回值?

例如,我在 excel 中为单张照片计算了这些数字,

所以从技术上讲它们确实存在......

感谢您的时间。