ruby-on-rails - Anemone 可以抓取本地存储在我的硬盘上的 html 文件吗？

Question

我希望将在线的几万页政府数据（在几千个文件夹中）收集在一起，并将它们全部放入一个文件中。为了加快这个过程，我想我会先把网站下载到我的硬盘上，然后再用 Anemone + Nokogiri 之类的东西来抓取它。当我使用政府网站的在线 URL 尝试示例代码时，一切正常，但是当我将 URL 更改为我的本地文件路径时，代码运行，但没有产生任何输出。这是代码：

url="file:///C:/2011/index.html"

Anemone.crawl(url) do |anemone|
  titles = []
  anemone.on_every_page { |page| titles.push page.doc.at

('title').inner_html rescue nil }
  anemone.after_crawl { puts titles.compact }
end

因此，本地文件名不会输出任何内容，但如果我插入相应的在线 URL，它会成功运行。Anemone 是否以某种方式无法抓取本地目录结构？如果没有，是否有其他建议的方法来进行这种爬行/抓取，或者我应该在网站的在线版本上简单地运行 Anemone？谢谢。

score 1 · Accepted Answer

这种方法有几个问题

Anemone 期望一个网址发出 http 请求，而您正在向它传递一个文件。您可以改为使用 nokogiri 加载文件并通过它进行解析
文件上的链接可能是完整的 url 而不是相对路径，在这种情况下，您仍然需要发出 http 请求

您可以做的是在本地下载文件，而不是使用 nokogiri 遍历它们并将链接转换为本地路径以供 Nokogiri 加载

ruby-on-rails - Anemone 可以抓取本地存储在我的硬盘上的 html 文件吗？

1 回答 1

Related

Reference