我正在处理美国气象服务风暴数据,从 1950 年开始,它每年都有一个大型 CSV 数据文件。1999 年的文件包含几行具有非常大的自由格式文本字段,其中包含嵌入的 NUL 字符,在其他 vanilla ascii 数据库中。(违规文件位于ftp://ftp.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/StormEvents_details-ftp_v1.0_d1999_c20140915.csv.gz)。
R 无法正确处理损坏的字符串数据,这包括 R data.frame、data.table、stringr 和 stringi 包函数(已尝试)。
我可以使用 sed 清理 NUL 的文件,但我不希望使用外部程序,因为这是用于带有嵌入式代码的 R 降价类型报告。
建议?