r - 使用配方在所有字段之间执行配对交互

Question

我正在尝试在glmnet模型的数据集的每个字段之间创建配对交互，而不必单独命名每个字段。但是，当它尝试自动执行此操作时，它会挂起为针对自身的 one-hot 编码分类变量的所有变体创建它们（例如，它在Gender_Maleand之间创建一个交互列Gender_Female，然后找不到任何值，因此整个东西都用NaNs) 填充，然后glmnet抛出一个错误。

这是一些示例代码：

library(dplyr)
library(tidyr)
library(rsample)
library(recipes)
library(glmnet)

head(credit_data)

t <- credit_data %>%
  mutate(Status = as.character(Status)) %>%
  mutate(Status = if_else(Status == "good", 1, 0)) %>%
  drop_na()

set.seed(1234)
partitions <- initial_split(t, prop = 9/10, strata = "Status")

parsed_recipe <- recipe(Status ~ ., data = t)  %>%
  step_dummy(one_hot = TRUE, all_predictors(), -all_numeric()) %>%
  step_interact(~.:.) %>% #My attempt to apply the interaction
  step_scale(all_predictors()) %>%
  prep(training = training(partitions))

train_data <- bake(parsed_recipe, new_data = training(partitions))
test_data <- bake(parsed_recipe, new_data = testing(partitions))

fit <- train_data %>%
  select(-Status) %>%
  as.matrix() %>%
  glmnet(x = ., y = train_data$Status, family = "binomial", alpha = 0)

当我glmnet在最后运行该部分时，它给了我这个错误：

Error in lognet(x, is.sparse, ix, jx, y, weights, offset, alpha, nobs,  : 
  NA/NaN/Inf in foreign function call (arg 5)

看了这个问题，我意识到数据中肯定有NAs/ NaNs，所以我跑了summary(train_data)，结果是这样的：

所以，glmnet难过也就不足为奇了，但我也不知道如何解决它。我真的不想自己手动定义每一个配对。是否有recipes删除包含NaNs 的潜在预测列的命令，也许？

score 0 · Accepted Answer

我不确定这是否是一个完美的（甚至是好的）解决方案，但我在这里使用答案来查找包含NAs 的列，然后将它们批量删除。

所以之后的位parsed_recipe被切换到这个：

interim_train <- bake(parsed_recipe, new_data = training(partitions))

columns_to_remove <- colnames(interim_train)[colSums(is.na(interim_train)) > 0]

train_data <- interim_train %>%
  select(-columns_to_remove)

summary(train_data)

test_data <- bake(parsed_recipe, new_data = testing(partitions)) %>%
  select(-columns_to_remove)

到目前为止，它的表现似乎更有希望。

r - 使用配方在所有字段之间执行配对交互

1 回答 1

Related

Reference