3

我正在从曾经存储为磁带的大文件(fwf 和 csv)中导入数据,因此在读写磁带时可能会产生错误。

旧文件采用固定宽度文件 (fwf) 格式 新文件采用 .csv 格式(以“;”作为分隔符)

错误可能是这样的:

对于 fwf 文件:

  • 损坏的字符会横向破坏所有数据序列,从而使所有单元格从那时起与内容不匹配。
  • 缺少行尾字符

对于 csv 文件:

  • 损坏的字符
  • 在其他数字列中损坏的字符或字母
  • 意外的分隔符(导致比预期更多的分隔符(
    列数 - 1)

有没有办法将它导入 R 跳过错误行,但保留错误日志以便之后可以手动检查它们?

还是我应该使用 R 外部的其他工具?在这种情况下,使用哪个工具?

我有大约 100 个非常大的文件(每个 90GB),所以我更喜欢一些基于 data.table::fread 或其他一些快速的解决方案。

4

0 回答 0