r - 在子集数据框中删除未使用的因子水平

Question

我有一个包含factor. 当我使用subset或其他索引函数创建此数据框的子集时，会创建一个新数据框。但是，该factor变量保留其所有原始级别，即使/如果它们不存在于新数据框中。

这在进行多面绘图或使用依赖于因子水平的函数时会导致问题。

从新数据框中的一个因素中删除级别的最简洁的方法是什么？

这是一个例子：

df <- data.frame(letters=letters[1:5],
                    numbers=seq(1:5))

levels(df$letters)
## [1] "a" "b" "c" "d" "e"

subdf <- subset(df, numbers <= 3)
##   letters numbers
## 1       a       1
## 2       b       2
## 3       c       3    

# all levels are still there!
levels(subdf$letters)
## [1] "a" "b" "c" "d" "e"

score 515 · Accepted Answer

515

从 R 版本 2.12 开始，就有了一个droplevels()功能。

levels(droplevels(subdf$letters))

于 2010-11-26T11:37:26.927 回答

score 447 · Accepted Answer

您所要做的就是在子集后再次将 factor() 应用于您的变量：

> subdf$letters
[1] a b c
Levels: a b c d e
subdf$letters <- factor(subdf$letters)
> subdf$letters
[1] a b c
Levels: a b c

编辑

从因子页面示例：

factor(ff)      # drops the levels that do not occur

要从数据框中的所有因子列中删除级别，您可以使用：

subdf <- subset(df, numbers <= 3)
subdf[] <- lapply(subdf, function(x) if(is.factor(x)) factor(x) else x)

score 47 · Accepted Answer

如果您不想要这种行为，请不要使用因子，而是使用字符向量。我认为这比事后修补更有意义。read.table在使用or加载数据之前尝试以下操作read.csv：

options(stringsAsFactors = FALSE)

缺点是您仅限于按字母顺序排列。（重新排序是你的情节朋友）

score 40 · Accepted Answer

这是一个已知问题，您的示例变为drop.levels()的gdata包中提供了一种可能的补救措施

> drop.levels(subdf)
  letters numbers
1       a       1
2       b       2
3       c       3
> levels(drop.levels(subdf)$letters)
[1] "a" "b" "c"

Hmisc包中也有该dropUnusedLevels功能。但是，它只能通过更改子集运算符起作用，此处不适用。[

作为推论，基于每列的直接方法很简单as.factor(as.character(data))：

> levels(subdf$letters)
[1] "a" "b" "c" "d" "e"
> subdf$letters <- as.factor(as.character(subdf$letters))
> levels(subdf$letters)
[1] "a" "b" "c"

score 26 · Accepted Answer

另一种做同样的方式，但与dplyr

library(dplyr)
subdf <- df %>% filter(numbers <= 3) %>% droplevels()
str(subdf)

编辑：

也有效！感谢agenis

subdf <- df %>% filter(numbers <= 3) %>% droplevels
levels(subdf$letters)

score 18 · Accepted Answer

为了完整起见，现在包中也fct_drop有http://forcats.tidyverse.org/reference/fct_drop.html。forcats

它与droplevels处理的方式不同NA：

f <- factor(c("a", "b", NA), exclude = NULL)

droplevels(f)
# [1] a    b    <NA>
# Levels: a b <NA>

forcats::fct_drop(f)
# [1] a    b    <NA>
# Levels: a b

score 15 · Accepted Answer

这是另一种方式，我认为它等同于该factor(..)方法：

> df <- data.frame(let=letters[1:5], num=1:5)
> subdf <- df[df$num <= 3, ]

> subdf$let <- subdf$let[ , drop=TRUE]

> levels(subdf$let)
[1] "a" "b" "c"

score 8 · Accepted Answer

这是令人讨厌的。这是我通常这样做的方式，以避免加载其他包：

levels(subdf$letters)<-c("a","b","c",NA,NA)

这让你：

> subdf$letters
[1] a b c
Levels: a b c

请注意，新级别将替换旧级别（subdf$letters）中占据其索引的任何内容，例如：

levels(subdf$letters)<-c(NA,"a","c",NA,"b")

不会工作。

当你有很多关卡时，这显然不是理想的，但对于少数人来说，它又快又容易。

score 8 · Accepted Answer

查看 R 源代码中的droplevels方法代码，您可以看到它可以factor运行。这意味着您基本上可以使用factor函数重新创建列。
在 data.table 下面从所有因子列中删除级别。

library(data.table)
dt = data.table(letters=factor(letters[1:5]), numbers=seq(1:5))
levels(dt$letters)
#[1] "a" "b" "c" "d" "e"
subdt = dt[numbers <= 3]
levels(subdt$letters)
#[1] "a" "b" "c" "d" "e"

upd.cols = sapply(subdt, is.factor)
subdt[, names(subdt)[upd.cols] := lapply(.SD, factor), .SDcols = upd.cols]
levels(subdt$letters)
#[1] "a" "b" "c"

score 7 · Accepted Answer

这是一种方法

varFactor <- factor(letters[1:15])
varFactor <- varFactor[1:5]
varFactor <- varFactor[drop=T]

score 6 · Accepted Answer

我编写了实用程序函数来做到这一点。现在我知道了 gdata 的 drop.levels，它看起来非常相似。他们在这里（从这里）：

present_levels <- function(x) intersect(levels(x), x)

trim_levels <- function(...) UseMethod("trim_levels")

trim_levels.factor <- function(x)  factor(x, levels=present_levels(x))

trim_levels.data.frame <- function(x) {
  for (n in names(x))
    if (is.factor(x[,n]))
      x[,n] = trim_levels(x[,n])
  x
}

score 4 · Accepted Answer

非常有趣的线程，我特别喜欢再次考虑子选择的想法。我之前遇到过类似的问题，我只是转换为字符，然后再转换为因子。

   df <- data.frame(letters=letters[1:5],numbers=seq(1:5))
   levels(df$letters)
   ## [1] "a" "b" "c" "d" "e"
   subdf <- df[df$numbers <= 3]
   subdf$letters<-factor(as.character(subdf$letters))

score 1 · Accepted Answer

不幸的是，使用 RevoScaleR 的 rxDataStep 时，factor() 似乎不起作用。我分两步完成：1）转换为字符并存储在临时外部数据帧（.xdf）中。2）转换回因子并存储在确定的外部数据框中。这消除了任何未使用的因子水平，而无需将所有数据加载到内存中。

# Step 1) Converts to character, in temporary xdf file:
rxDataStep(inData = "input.xdf", outFile = "temp.xdf", transforms = list(VAR_X = as.character(VAR_X)), overwrite = T)
# Step 2) Converts back to factor:
rxDataStep(inData = "temp.xdf", outFile = "output.xdf", transforms = list(VAR_X = as.factor(VAR_X)), overwrite = T)

score 1 · Accepted Answer

如果不是全部但似乎都没有在我的情况下工作，那么已经尝试了这里的大多数示例。在挣扎了很长一段时间后，我尝试在因子列上使用as.character()将其更改为带有字符串的 col，这似乎工作得很好。

不确定性能问题。

score 0 · Accepted Answer

感谢您发布这个问题。但是，上述解决方案都不适合我。我为这个问题做了一个解决方法，分享它以防其他人偶然发现这个问题：

对于所有factor包含零值级别的列，您可以先将这些列转换为charactertype，然后再将它们转换回factors.

对于上面发布的问题，只需添加以下代码行：

# Convert into character
subdf$letters = as.character(subdf$letters)

# Convert back into factor
subdf$letters = as.factor(subdf$letters)

# Verify the levels in the subset
levels(subdf$letters)

score -1 · Accepted Answer

droplevels真正的droplevels函数比collapse::fdroplevels. 例子：

library(collapse)
library(microbenchmark)

# wlddev data supplied in collapse, iso3c is a factor
data <- fsubset(wlddev, iso3c %!in% "USA")

microbenchmark(fdroplevels(data), droplevels(data), unit = "relative")
## Unit: relative
##               expr  min       lq     mean   median       uq      max neval cld
##  fdroplevels(data)  1.0  1.00000  1.00000  1.00000  1.00000  1.00000   100  a 
##   droplevels(data) 30.2 29.15873 24.54175 24.86147 22.11553 14.23274   100   b

r - 在子集数据框中删除未使用的因子水平

16 回答 16

Related

Reference