0

我见过 Nutch 和 Heritrix 的爬行方式。它们都具有生成/获取/更新周期的概念,这些周期从一些种子 URL 开始,并在获取步骤后迭代结果 URL。

范围/过滤逻辑适用于应用于提取的 URL 的正则表达式。

我想做一些非常具体的事情。我不想从页面中提取所有 url,但我宁愿根据一些 xpath 获取 url。原因是: - 并非所有网址都可以使用精确的正则表达式进行分类 - 我可能会错过一些超出给定 reg ex 的网址 - 我可能还想遵循“下一页”序列 - 特定的抓取周期可能具有不同的基于 xpath每个深度的过滤器。

有没有人对 Heritrix 的 Nutch 做过这样的事情?

谢谢奈恩

4

1 回答 1

0

我试图用这两种方法创建一个 POC。我需要外链以使用不同的规则集开始下一阶段的爬网。使用 heritrix,没有办法保留最后一跳的外链,因为所有外链都被丢弃了。使用 Nutch,没有办法合并我自己的刮板,它不会返回其内部数据结构(如 ParseData 等)所需的外链等。此外,它与 lucene 和相关的索引系统紧密耦合。谢谢奈恩

于 2010-07-28T11:41:15.590 回答