我见过 Nutch 和 Heritrix 的爬行方式。它们都具有生成/获取/更新周期的概念,这些周期从一些种子 URL 开始,并在获取步骤后迭代结果 URL。
范围/过滤逻辑适用于应用于提取的 URL 的正则表达式。
我想做一些非常具体的事情。我不想从页面中提取所有 url,但我宁愿根据一些 xpath 获取 url。原因是: - 并非所有网址都可以使用精确的正则表达式进行分类 - 我可能会错过一些超出给定 reg ex 的网址 - 我可能还想遵循“下一页”序列 - 特定的抓取周期可能具有不同的基于 xpath每个深度的过滤器。
有没有人对 Heritrix 的 Nutch 做过这样的事情?
谢谢奈恩