0

我正在尝试打开一个固定宽度的大型文件,但不幸的是,函数 read.fwf 似乎非常耗时。由于我必须使用大型数据集,我会知道是否有其他解决方案可以节省时间,或者是否没有解决方案。

就我而言,要打开一个大约 60 万的文件,我使用以下代码:

df <- read.fwf(file = "df.txt", widths = c(1,3,3,4,3,3,1,1,2,2,2,2,1,1,3,3,2,2,3,1,2,2,3,2,1,3,1,1,3,3,1,3,1,1,1,1,2,3,1,2,1,3,2,1,1,1,3,3,1,1,1,2,4,16,3,7,1,1,2,1,2,2,1))

大约需要 12 分钟。

由于我不需要数据库中的所有列,因此我尝试删除其中一些列:

df <- read.fwf(file = "df.txt", widths = c(1,3,3,4,-3,3,-1,-1,2,-2,-2,2,1,-1,-3,-3,-2,-2,-3,-1,-2,-2,3,-2,-1,-3,-1,-1,-3,-3,-1,3,-1,-1,-1,1,-2,-3,-1,2,1,-3,-2,-1,-1,1,-3,-3,-1,-1,-1,-2,-4,-16,3,-7,-1,-1,2,-1,-2,2,-1))

我节省了一些时间(6 分钟),但该过程仍然过于耗时,因为我必须处理超过 200 万行的许多数据集。

4

0 回答 0