我有一个数据框,我目前正在按一个包含大约一千个项目的类别进行分组。这会创建一个过于宽泛的图表,我实际上对大多数数据不感兴趣,因为它们都是相似的。
我想要的是只查看最大值超过阈值的项目的图表,并可能将所有其他项目组合成“其他”类别。
有没有一种罐头方法可以做到这一点?
我有一个数据框,我目前正在按一个包含大约一千个项目的类别进行分组。这会创建一个过于宽泛的图表,我实际上对大多数数据不感兴趣,因为它们都是相似的。
我想要的是只查看最大值超过阈值的项目的图表,并可能将所有其他项目组合成“其他”类别。
有没有一种罐头方法可以做到这一点?
fct_lump()
来自forcats 包可能会起作用。
您需要先按比例处理值,但它具有prop
“保留至少prop
在一段时间内出现的值”的参数(它将其余值分组为“其他”级别)。
另外还有一个n
关于要保留的级别数量的参数(也将其余部分分组为“其他”级别)。