我有一大串从各种来源编译而来的单词。来自这么多不相关的来源,我想有一些重复。即使在一些原始文件中,也有重复。我创建了一个脚本来对它们进行排序,但是此时文件变得如此笨拙,以至于我在尝试解析它时内存不足。来源如下。我正在使用 Ruby 1.9.3-p327 运行 Windows 8、64 位。
#!/usr/bin/env ruby
words = []
File.foreach( "wordlist.txt" ) do |line|
words << line
end
words.uniq!()
words = words.sort()
wordFile = File.open( "wordlist.txt", "w" )
words.each do |word|
wordFile << word + "\n"
puts "Wrote to file: #{ word }"
end