r - 在应用语句中计算百分比 (R)

Question

我正在为一些非常简单的事情而苦苦挣扎，但是我绕着圈子转，只是看不到我在哪里犯了错误。我真的希望有人能给我一个方便的建议，这样我就不再被困住了！

我的目标：我想计算 data.frame 中结果高于 0 的实例的百分比。我已经尝试使用 for 循环，但无济于事。因此，经过更多搜索后，我使用 apply 函数来计算各种指标，如均值、标准差和最小值/最大值。这很好用，但是对于计算百分比，应用函数不起作用，即使我创建了一个自定义函数，并将其插入到应用函数中。

这是我的 data.frame 的缩短版本：

     tradesList[c(1:5,10:15),c(1,7)]
   Instrument TradeResult.Currency.
1         JPM                    -3
2         JPM                   264
3         JPM                   284
4         JPM                    69
5         JPM                   283
10        JPM                  -294
11        KFT                    -8
12        KFT                   -48
13        KFT                   125
14        KFT                  -150
15        KFT                  -206

我想总结这个data.frame，例如通过显示每个工具的平均TradeResult：

> tapply(tradesList$TradeResult.Currency., tradesList$Instrument, mean)
 JPM  KFT 
42.3 14.6

但是，我还想计算每个工具的 TradeResult > 0 的行的百分比。使用 'which' 函数检查 > 0 的实例确实有效，但是，apply 不会接受此函数作为参数。

> length(which(tradesList$TradeResult.Currency. > 0)) / length(tradesList$TradeResult.Currency.) * 100
[1] 50
> tapply(tradesList$TradeResult.Currency., tradesList$Instrument, (length(which(tradesList$TradeResult.Currency. > 0)) / length(tradesList$TradeResult.Currency.) * 100))
Error in match.fun(FUN) : 
  c("'(length(which(tradesList$TradeResult.Currency. > 0))/length(tradesList$TradeResult.Currency.) * ' is not a function, character or symbol", "'    100)' is not a function, character or symbol")
>

我在帮助函数中搜索了有关此错误的更多信息，并尝试了各种不同的函数公式化方法（例如使用括号或引号），但每种方法都会导致相同的结果。

有人知道为什么要计算大于零的实例的百分比吗？也许我错过了什么？

非常感谢提前，

问候，

编辑： 非常感谢您的快速评论 G. Grothendieck、Gavin Simpson 和 DWin。高度赞赏和非常有帮助！

已解决： 这是我现在拥有的：

> tmpData <- tradesList[c(1:5,10:15),c(1,7)]
> tmpData
   Instrument TradeResult.Currency.
1         JPM                    -3
2         JPM                   264
3         JPM                   284
4         JPM                    69
5         JPM                   283
10        JPM                  -294
11        KFT                    -8
12        KFT                   -48
13        KFT                   125
14        KFT                  -150
15        KFT                  -206
> 100*    # to get percentages
+ with( tmpData, 
+ tapply( (TradeResult.Currency. > 0) , Instrument, sum)/   # number GT 0
+        tapply( TradeResult.Currency., Instrument, length) ) # total number
     JPM      KFT 
66.66667 20.00000 
> 100 * tapply(tmpData$TradeResult.Currency. > 0, tmpData$Instrument, mean)
     JPM      KFT 
66.66667 20.00000 
> pcentFun <- function(x) {
+     res <- x > 0
+     100 * (sum(res) / length(res))
+ }
> 
> with(tmpData, tapply(TradeResult.Currency., Instrument, pcentFun))
     JPM      KFT 
66.66667 20.00000

再次感谢！

问候，

score 2 · Accepted Answer

试试这个：

100 * tapply(tradesList$TradeResult.Currency. > 0, tradesList$Instrument, mean)

使用帖子中的示例数据，它给出：

  JPM   KFT 
66.67 20.00

在这里它使用 sqldf（请注意，RSQLite 驱动程序将点转换为下划线，因为点也是 SQL 运算符，因此我们在点所在的位置使用下划线）：

> library(sqldf)
> sqldf("select Instrument, 
+     100 * avg(TradeResult_Currency_ > 0) as '%>0',
+     avg(TradeResult_Currency_) as 'Avg Currency'
+     from tradesList group by Instrument")
  Instrument   %>0 Avg Currency
1        JPM 66.67        100.5
2        KFT 20.00        -57.4

这两个也可以通过对已发布aggregate的解决方案进行适当修改来转换。aggregate

score 2 · Accepted Answer

编写一个简单的函数来进行计算：

pcentFun <- function(x) {
    res <- x > 0
    100 * (sum(res) / length(res))
}

然后我们可以将其应用于乐器组，通过tapply()

> with(tradeList, tapply(TradeResult.Currency, Instrument, pcentFun))
     JPM      KFT 
66.66667 20.00000

但aggregate()如果您想要带有仪器名称的摘要会更有用：

> with(tradesList, aggregate(TradeResult.Currency, 
+                            by = list(Instrument = Instrument), pcentFun))
  Instrument        x
1        JPM 66.66667
2        KFT 20.00000

score 1 · Accepted Answer

您可以使用 sum 或 mean 处理逻辑结果以获得有意义的汇总结果：

100*    # to get percentages
with( tradesList, 
tapply( (TradeResult.Currency. > 0) , Instrument, sum)/   # number GT 0
       tapply( TradeResult.Currency., Instrument, length) ) # total number

编辑：我注意到 Gavin 给了你一个返回数据框的答案，这是一个通常很好理解的类。Gabor 和我的回复中的值类别都是一维数组。通过 c() 将对象包围起来，它们可以变成命名向量，c() 可以作为向量函数的连接和强制。就他们的立场而言，它们完全可以接受 rbinding 或以预期方式使用“[”访问，并从 names() 重新运行预期结果。

tapply 函数返回具有 INDEX 参数中的维数的数组，并且可以非常有效地结合使用表对象进行矩阵运算。我做了很多将总和除以计数或计数除以在 2、3 或 4 维度上获得有意义的类别统计数据的方法。

r - 在应用语句中计算百分比 (R)

3 回答 3

Related

Reference