我目前正在尝试read_table()
在一些大型数据文件上使用 readr 包中的函数。我只想要第二列,所以我在函数中使用这个参数将所有其他列设置为 NULL:
col_types = c(paste("_", "c", paste(rep("_", 20000), sep = "", collapse = ""), sep = "", collapse = ""))
编辑:上面代码中的第一对和第三对闭引号之间应该有一个下划线。
但是, read_table 似乎坚持要读取整个数据文件(并使用过多的内存并导致崩溃),而不仅仅是读取第 2 列。
使用read.table()
,我尝试了一个类似的论点:colClasses = c("NULL", "character", rep("NULL", 20000)
它可以完美地工作而不会占用过多的内存,但我想使用它,read_table
因为它应该更快。即使我包含一个只保留一列的论点,关于为什么read_table
占用这么多内存的任何想法?