java - 使用 Nutch 或 Heritrix 定向爬行

Question

我见过 Nutch 和 Heritrix 的爬行方式。它们都具有生成/获取/更新周期的概念，这些周期从一些种子 URL 开始，并在获取步骤后迭代结果 URL。

范围/过滤逻辑适用于应用于提取的 URL 的正则表达式。

我想做一些非常具体的事情。我不想从页面中提取所有 url，但我宁愿根据一些 xpath 获取 url。原因是： - 并非所有网址都可以使用精确的正则表达式进行分类 - 我可能会错过一些超出给定 reg ex 的网址 - 我可能还想遵循“下一页”序列 - 特定的抓取周期可能具有不同的基于 xpath每个深度的过滤器。

有没有人对 Heritrix 的 Nutch 做过这样的事情？

谢谢奈恩

score 0 · Accepted Answer

我试图用这两种方法创建一个 POC。我需要外链以使用不同的规则集开始下一阶段的爬网。使用 heritrix，没有办法保留最后一跳的外链，因为所有外链都被丢弃了。使用 Nutch，没有办法合并我自己的刮板，它不会返回其内部数据结构（如 ParseData 等）所需的外链等。此外，它与 lucene 和相关的索引系统紧密耦合。谢谢奈恩

java - 使用 Nutch 或 Heritrix 定向爬行

1 回答 1

Related

Reference