1

我不太熟悉将 ruby​​ 与二进制数据一起使用。我正在使用 mechanize 将大量 csv 文件下载到我的本地磁盘。然后我需要在这些文件中搜索特定的字符串。

我在 mechanize 中使用 save_as 方法来保存文件(将文件保存为二进制文件)。文件的内容类型(根据机械化)是:

application/vnd.ms-excel;charset=x-UTF-16LE-BOM

从这里开始,我不确定如何读取文件。我已经尝试将它作为 ruby​​ 中的普通文件读取,但我只是得到二进制数据。我也尝试过使用标准的 unix 工具(字符串/grep)来尝试搜索,但没有任何运气。

当我对其中一个文件运行“文件”命令时,我得到:

foo.csv: Little-endian UTF-16 Unicode Pascal program text, with very long lines, with CRLF, CR, LF line terminators

我可以用 cat 或 vi 很好地查看数据。使用 vi 我还可以看到一些控制字符。

我也尝试了 csv 和 fastercsv ruby​​ 库,但我得到了“IllegalFormatError”异常。我也尝试过这个解决方案,但没有任何运气。

任何帮助将不胜感激。谢谢。

4

1 回答 1

1

您可以使用命令 'iconv' 转换为 UTF-8,

# iconv -f 'UTF-16LE' -t 'UTF-8' bad_file.csv > good_file.csv

标准库中还有一个 iconv 包装器,您可以在将文件读入程序后使用它来转换文件。

于 2010-03-16T03:53:38.370 回答