作业说明: http: //pastebin.com/pxJS4gfR
目标:获取文档集合并生成其倒排索引。
我的计划
- 从集合文件中获取相关字符串
- 标记它们并将它们放入哈希中以供以后使用。
我正在使用以下正则表达式\.I(.*?)\.B\m
从集合文件中获取所需的文本,如下所示:http ://rubular.com/r/mOpfuvRT12
编辑:我使用了mudasobwa
的建议
content = File.read('test.txt')
# deal with content
content.scan(/\.T(.*?)\.B/m) { |mtch|
puts mtch
}
这抓取了我需要的必要文本,但是我需要将抓取的文本放入一个 Hash 以供以后使用,我不确定如何使用它,String.scan/regex/
因为它返回一个数组数组。
我基本上是想复制这个例子:
puts "Enter something: "
text = gets.chomp
words = text.split(" ")
frequencies = Hash.new(0)
words.each do |word|
frequencies[word] += 1
end
frequencies = frequencies.sort_by { |k, v| v }
frequencies.reverse!
frequencies.each do |word, freq|
puts word + " " + freq.to_s
end