所以假设我有一个看起来像这样的数据集,我在 R 中使用它:
player at_bat opponent_name game result
Torri_Hunter 1 Pittsburgh Pirates 1 home run
Torri_Hunter 2 Pittsburgh Pirates 1 triple
Torri_Hunter 3 Pittsburgh Pirates 1 strikeout
Torri_Hunter 4 Pittsburgh Pirates 1 strikeout
Torri_Hunter 1 Pittsburgh Pirates 2 groundout
Torri_Hunter 2 Pittsburgh Pirates 2 home run
Torri_Hunter 3 Pittsburgh Pirates 2 flyout
Torri_Hunter 1 Pittsburgh Pirates 2 home run
Torri_Hunter 2 Pittsburgh Pirates 3 triple
Torri_Hunter 3 Pittsburgh Pirates 3 strikeout
Torri_Hunter 4 Pittsburgh Pirates 3 strikeout
Torri_Hunter 1 Detroit Tigers 1 home run
Torri_Hunter 2 Detroit Tigers 1 home run
Torri_Hunter 3 Detroit Tigers 1 home run
Torri_Hunter 4 Detroit Tigers 1 strikeout
(我意识到 Torii 的名字拼写错误,请耐心等待)。
我最终想计算一个系列赛中本垒打的百分比,最终得到如下所示的结果:
opponent_name game_1s game_2s game_3s
Torri Hunter Pittsburgh Pirates 25% 50% 0%
Torri Hunter Detroit Tigers 75% -- --
我可以 dplyr::filter 过滤结果,按 ID 计算每个游戏的统计数据,然后导出到 .csv,我可以在其中获得 excel 中的平均值(这就是我一直在做的),但必须更快完全在 R 中做到这一点的方法。有什么想法吗?