我正在从曾经存储为磁带的大文件(fwf 和 csv)中导入数据,因此在读写磁带时可能会产生错误。
旧文件采用固定宽度文件 (fwf) 格式 新文件采用 .csv 格式(以“;”作为分隔符)
错误可能是这样的:
对于 fwf 文件:
- 损坏的字符会横向破坏所有数据序列,从而使所有单元格从那时起与内容不匹配。
- 缺少行尾字符
对于 csv 文件:
- 损坏的字符
- 在其他数字列中损坏的字符或字母
- 意外的分隔符(导致比预期更多的分隔符(
列数 - 1)
有没有办法将它导入 R 跳过错误行,但保留错误日志以便之后可以手动检查它们?
还是我应该使用 R 外部的其他工具?在这种情况下,使用哪个工具?
我有大约 100 个非常大的文件(每个 90GB),所以我更喜欢一些基于 data.table::fread 或其他一些快速的解决方案。