11

我想堆叠一个 data.frames 列表,但有时这些列具有不同的数据类型。我希望操作强制到最低公分母(通常character在我的情况下)。

这种堆叠发生在一个包函数中,该函数接受几乎任何 data.frames 列表。它实际上并没有对ds_a$x之前的角色进行强制的能力bind_rows()

ds_a <- data.frame(
  x = 1:6,
  stringsAsFactors = FALSE
)
ds_b <- data.frame(
  x = c("z1", "z2"),
  stringsAsFactors = FALSE
)

# These four implementations throw:
# Error: Can not automatically convert from integer to character in column "x".
ds_1 <- dplyr::bind_rows(ds_a, ds_b)
ds_2 <- dplyr::bind_rows(ds_b, ds_a)
ds_3 <- dplyr::bind_rows(list(ds_a, ds_b))
ds_4 <- dplyr::union_all(ds_a, ds_b)

我希望输出是具有单个字符向量的 data.frame:

   x
1  1
2  2
3  3
4  4
5  5
6  6
7 z1
8 z2

我有一些长期计划使用(REDCap)数据库中的元数据来影响强制,但我希望有一个短期的通用解决方案用于堆叠操作。

4

2 回答 2

12

我们可以rbindlist使用data.table

library(data.table)
rbindlist(list(ds_a, ds_b))
#    x
#1:  1
#2:  2
#3:  3
#4:  4
#5:  5
#6:  6
#7: z1
#8: z2
于 2016-09-07T19:05:53.680 回答
2

最近我改用一种方法,最初将所有列保留为字符串(从纯文本转换为 data.frame 时),然后堆叠,最后在所有行做出决定后将列转换为适当的数据类型(使用readr::type_convert())。

它模仿了这个例子。我没有进行任何性能比较,但没有明显差异(互联网是真正的瓶颈)。另外,我有点喜欢减少数据类型转换次数的想法。

library(magrittr)
col_types <- readr::cols(.default = readr::col_character())
raw_a <- "x,y\n1,21\n2,22\n3,23\n4,24\n5,25\n6,26"
raw_b <- "x,y\nz1,31\nz2,32"
ds_a <- readr::read_csv(raw_a, col_types=col_types)
ds_b <- readr::read_csv(raw_b, col_types=col_types)

list(ds_a, ds_b) %>% 
  dplyr::bind_rows() %>% 
  readr::type_convert()
#> Parsed with column specification:
#> cols(
#>   x = col_character(),
#>   y = col_double()
#> )
#> # A tibble: 8 x 2
#>   x         y
#>   <chr> <dbl>
#> 1 1        21
#> 2 2        22
#> 3 3        23
#> 4 4        24
#> 5 5        25
#> 6 6        26
#> 7 z1       31
#> 8 z2       32

reprex 包(v0.3.0)于 2019 年 12 月 3 日创建

于 2019-12-04T03:02:59.623 回答