2

我有一个数据框,我目前正在按一个包含大约一千个项目的类别进行分组。这会创建一个过于宽泛的图表,我实际上对大多数数据不感兴趣,因为它们都是相似的。

我想要的是只查看最大值超过阈值的项目的图表,并可能将所有其他项目组合成“其他”类别。

有没有一种罐头方法可以做到这一点?

4

1 回答 1

1

fct_lump()来自forcats 包可能会起作用。

您需要先按比例处理值,但它具有prop“保留至少prop在一段时间内出现的值”的参数(它将其余值分组为“其他”级别)。

另外还有一个n 关于要保留的级别数量的参数(也将其余部分分组为“其他”级别)。

这是有关 forcat 的更多信息

于 2017-02-09T16:10:42.217 回答