2

我正在为一些非常简单的事情而苦苦挣扎,但是我绕着圈子转,只是看不到我在哪里犯了错误。我真的希望有人能给我一个方便的建议,这样我就不再被困住了!

我的目标:我想计算 data.frame 中结果高于 0 的实例的百分比。我已经尝试使用 for 循环,但无济于事。因此,经过更多搜索后,我使用 apply 函数来计算各种指标,如均值、标准差和最小值/最大值。这很好用,但是对于计算百分比,应用函数不起作用,即使我创建了一个自定义函数,并将其插入到应用函数中。

这是我的 data.frame 的缩短版本:

     tradesList[c(1:5,10:15),c(1,7)]
   Instrument TradeResult.Currency.
1         JPM                    -3
2         JPM                   264
3         JPM                   284
4         JPM                    69
5         JPM                   283
10        JPM                  -294
11        KFT                    -8
12        KFT                   -48
13        KFT                   125
14        KFT                  -150
15        KFT                  -206

我想总结这个data.frame,例如通过显示每个工具的平均TradeResult:

> tapply(tradesList$TradeResult.Currency., tradesList$Instrument, mean)
 JPM  KFT 
42.3 14.6 

但是,我还想计算每个工具的 TradeResult > 0 的行的百分比。使用 'which' 函数检查 > 0 的实例确实有效,但是,apply 不会接受此函数作为参数。

> length(which(tradesList$TradeResult.Currency. > 0)) / length(tradesList$TradeResult.Currency.) * 100
[1] 50
> tapply(tradesList$TradeResult.Currency., tradesList$Instrument, (length(which(tradesList$TradeResult.Currency. > 0)) / length(tradesList$TradeResult.Currency.) * 100))
Error in match.fun(FUN) : 
  c("'(length(which(tradesList$TradeResult.Currency. > 0))/length(tradesList$TradeResult.Currency.) * ' is not a function, character or symbol", "'    100)' is not a function, character or symbol")
> 

我在帮助函数中搜索了有关此错误的更多信息,并尝试了各种不同的函数公式化方法(例如使用括号或引号),但每种方法都会导致相同的结果。

有人知道为什么要计算大于零的实例的百分比吗?也许我错过了什么?

非常感谢提前,

问候,

编辑: 非常感谢您的快速评论 G. Grothendieck、Gavin Simpson 和 DWin。高度赞赏和非常有帮助!

已解决: 这是我现在拥有的:

> tmpData <- tradesList[c(1:5,10:15),c(1,7)]
> tmpData
   Instrument TradeResult.Currency.
1         JPM                    -3
2         JPM                   264
3         JPM                   284
4         JPM                    69
5         JPM                   283
10        JPM                  -294
11        KFT                    -8
12        KFT                   -48
13        KFT                   125
14        KFT                  -150
15        KFT                  -206
> 100*    # to get percentages
+ with( tmpData, 
+ tapply( (TradeResult.Currency. > 0) , Instrument, sum)/   # number GT 0
+        tapply( TradeResult.Currency., Instrument, length) ) # total number
     JPM      KFT 
66.66667 20.00000 
> 100 * tapply(tmpData$TradeResult.Currency. > 0, tmpData$Instrument, mean)
     JPM      KFT 
66.66667 20.00000 
> pcentFun <- function(x) {
+     res <- x > 0
+     100 * (sum(res) / length(res))
+ }
> 
> with(tmpData, tapply(TradeResult.Currency., Instrument, pcentFun))
     JPM      KFT 
66.66667 20.00000

再次感谢!

问候,

4

3 回答 3

2

试试这个:

100 * tapply(tradesList$TradeResult.Currency. > 0, tradesList$Instrument, mean)

使用帖子中的示例数据,它给出:

  JPM   KFT 
66.67 20.00 

在这里它使用 sqldf(请注意,RSQLite 驱动程序将点转换为下划线,因为点也是 SQL 运算符,因此我们在点所在的位置使用下划线):

> library(sqldf)
> sqldf("select Instrument, 
+     100 * avg(TradeResult_Currency_ > 0) as '%>0',
+     avg(TradeResult_Currency_) as 'Avg Currency'
+     from tradesList group by Instrument")
  Instrument   %>0 Avg Currency
1        JPM 66.67        100.5
2        KFT 20.00        -57.4

这两个也可以通过对已发布aggregate的解决方案进行适当修改来转换。aggregate

于 2010-12-05T16:21:46.413 回答
2

编写一个简单的函数来进行计算:

pcentFun <- function(x) {
    res <- x > 0
    100 * (sum(res) / length(res))
}

然后我们可以将其应用于乐器组,通过tapply()

> with(tradeList, tapply(TradeResult.Currency, Instrument, pcentFun))
     JPM      KFT 
66.66667 20.00000 

aggregate()如果您想要带有仪器名称的摘要会更有用:

> with(tradesList, aggregate(TradeResult.Currency, 
+                            by = list(Instrument = Instrument), pcentFun))
  Instrument        x
1        JPM 66.66667
2        KFT 20.00000
于 2010-12-05T16:23:05.337 回答
1

您可以使用 sum 或 mean 处理逻辑结果以获得有意义的汇总结果:

100*    # to get percentages
with( tradesList, 
tapply( (TradeResult.Currency. > 0) , Instrument, sum)/   # number GT 0
       tapply( TradeResult.Currency., Instrument, length) ) # total number

编辑:我注意到 Gavin 给了你一个返回数据框的答案,这是一个通常很好理解的类。Gabor 和我的回复中的值类别都是一维数组。通过 c() 将对象包围起来,它们可以变成命名向量,c() 可以作为向量函数的连接和强制。就他们的立场而言,它们完全可以接受 rbinding 或以预期方式使用“[”访问,并从 names() 重新运行预期结果。

tapply 函数返回具有 INDEX 参数中的维数的数组,并且可以非常有效地结合使用表对象进行矩阵运算。我做了很多将总和除以计数或计数除以在 2、3 或 4 维度上获得有意义的类别统计数据的方法。

于 2010-12-05T16:13:31.557 回答