我希望使用 dplyr 将客户交易数据框总结为每个客户的一行。对于连续变量,这很简单 - 使用总和/平均值等。对于分类变量,我想选择“模式” - 即组内最常见的值并在多个列中执行此操作,例如:
例如取表 Cus1
Cus <- data.frame(Customer = c("C-01", "C-01", "C-02", "C-02", "C-02", "C-02", "C-03", "C-03"),
Product = c("COKE", "COKE", "FRIES", "SHAKE", "BURGER", "BURGER", "CHICKEN", "FISH"),
Store = c("NYC", "NYC", "Chicago", "Chicago", "Detroit", "Detroit", "LA", "San Fran")
)
并生成表 Cus_Summary:
Cus_Summary <- data.frame(Customer = c("C-01", "C-02", "C-03"),
Product = c("COKE", "BURGER", "CHICKEN"),
Store = c("NYC", "Chicago", "LA")
)
有没有可以提供这个功能的包?或者有没有人可以在 dplyr 步骤中跨多个列应用的函数?
我并不担心处理关系的聪明方法——任何关系的输出就足够了(尽管任何关于如何最好地处理关系的建议都会很有趣和赞赏)。