我正在分析一组大型 (>150mb) 固定宽度数据文件。我一直在使用 read.fwf() 以 100 行块(每行是 7385 个字符)慢慢阅读它们,然后将它们推送到关系数据库中以进行进一步操作。问题是文本文件偶尔会有一个不稳定的多字节字符(例如,通常足以令人讨厌,而不是“U”,数据文件具有系统分配给 Unicode U+F8FF 的任何内容。在 OS X 中,这是一个苹果符号,但不确定这是否是跨平台标准)。发生这种情况时,我会收到如下错误:
'NTY <20> MAINE
000008 [...]处的无效多字节字符串
那应该是“县”这个词的后半部分,但如上所述,U 是不稳定的。(如果有人认为它们有用,很乐意提供更详细的代码和数据。)
我想在 R 中完成所有编码,但我不确定如何强制使用单字节。因此,我的问题的主题行部分:是否有一些简单的方法可以从包含一些错误多字节字符的文本文件中强制转换单字节 ascii?
或者也许有更好的方法来处理这个问题(我应该在系统级别从 R 调用 grep 来找出错误的多字节字符)?
非常感谢任何帮助!