0

如何在 ruby​​ 中替换文件的全部内容?

Dir["#{File.dirname(__FILE__)}/data/**/*.json"].each do |f|
  encoded = f.read.force_encoding('UTF-16').encode('utf-8')
  # ????????
end

我正在尝试重新编码一些 json 文件的内容。

4

2 回答 2

4

这应该有效:

Dir["#{File.dirname(__FILE__)}/data/**/*.json"].each do |f|
  begin
    data = open(f, "r:utf-16:utf-8") {|fp| fp.read }
    open(f, "w") {|fp| fp << data }
  rescue Encoding::InvalidByteSequenceError
    # Source data isn't in UTF-16, so skip this file.
    next
  end
end

总体思路是,我们以 UTF-16 格式打开文件,将其读入 UTF-8 编码字符串,然后将其写回(以 UTF-8 格式)。传递的编码参数IO.open自动处理转换。

于 2013-07-11T05:01:16.160 回答
2

这会创建一些示例测试数据:

# encoding: UTF-8
require 'json'

foo = {'a'=>%w[a b ç ∂]}
JSON.dump(foo, File.new('filein.json', 'w:UTF-16'))

“filein.json” 看起来像这样cat

��{"a":["a","b","�","""]}

创建之后,其中任何一个似乎都有效:

File.open('fileout.json', 'w:UTF-8') do |fo|
  File.open('filein.json', 'rb:UTF-16') do |fi|
    fo.write(fi.read)
  end
end

这只是通过立即写入来读取内存;它不可扩展,但应该可以处理合理大小的文件。输入读取为 UTF-16,输出写入为 UTF-8。

JSON.dump(
  JSON.load(File.open('filein.json', 'rb:UTF-16')),
  File.open('fileout.json', 'w:UTF-8')
)

这与前面的示例类似,但它让 JSON gem 解码然后重新编码文件。这可能有用,也可能没有。而且,同样,它不可扩展,因为读取会将文件加载到内存中。

对于超出内存的BIG文件,或者如果您只想做正确的事情并使用可扩展的代码,请使用:

File.open('fileout.json', 'w:UTF-8') do |fo|
  File.foreach('filein.json', $/, encoding: 'UTF-16', mode: 'rb') do |li|
    fo.write(li)
  end
end

在上述所有情况下创建的输出“fileout.json”是:

{"a":["a","b","ç","∂"]}

要用于Dir[]搜索,请修改任何示例,如下所示包装它们:

Dir[File.dirname(__FILE__) + '/data/**/*.json'].each do |filein|
  File.open(filein + '.new', 'w:UTF-8') do |fo|
    File.foreach(filein, $/, encoding: 'UTF-16', mode: 'rb') do |li|
      fo.write(li)
    end
  end
end

对于每个输入文件,这将生成一个免费的“.json.new”文件。立即覆盖旧文件永远不会安全,因此在运行后您可以根据需要重命名*.new文件。我会使用:

Dir[File.dirname(__FILE__) + '/data/**/*.json'].each do |filein|
  new_file = "#{ filein }.new"
  File.open(new_file, 'w:UTF-8') do |fo|
    File.foreach(filein, $/, encoding: 'UTF-16', mode: 'rb') do |li|
      fo.write(li)
    end
  end
  File.mv(filein, "#{ filein }.bak")
  File.mv(new_file, filein)
end
于 2013-07-11T05:59:03.147 回答