我希望将在线的几万页政府数据(在几千个文件夹中)收集在一起,并将它们全部放入一个文件中。为了加快这个过程,我想我会先把网站下载到我的硬盘上,然后再用 Anemone + Nokogiri 之类的东西来抓取它。当我使用政府网站的在线 URL 尝试示例代码时,一切正常,但是当我将 URL 更改为我的本地文件路径时,代码运行,但没有产生任何输出。这是代码:
url="file:///C:/2011/index.html"
Anemone.crawl(url) do |anemone|
titles = []
anemone.on_every_page { |page| titles.push page.doc.at
('title').inner_html rescue nil }
anemone.after_crawl { puts titles.compact }
end
因此,本地文件名不会输出任何内容,但如果我插入相应的在线 URL,它会成功运行。Anemone 是否以某种方式无法抓取本地目录结构?如果没有,是否有其他建议的方法来进行这种爬行/抓取,或者我应该在网站的在线版本上简单地运行 Anemone?谢谢。