solr - Apache Nutch 仅索引 Solr 的文章页面

Question

我已经设置了 Nutch 1.17 来抓取几个网站。像往常一样，高层可以有两种类型的网页。首先是类别页面或主页，不包含任何特定故事的详细信息，但提供多个页面的链接和短文本。其次，有些页面包含详细的完整故事信息，即文章。

现在我的问题是如何确定这是实际的文章页面，而该页面是类别页面。此外，我也有兴趣仅索引故事页面？

我认为 Nutch 默认没有任何东西。我怎样才能实现这种行为？

score 0 · Accepted Answer

核心问题归结为如何识别文章/故事页面与主页或类别页面。这通常是非常特定于域的，并且可能取决于很多因素（服务器端的重写规则或使用的 CMS 等）。

如果您对正在抓取的域相当熟悉，也许您可以使用正则表达式来区分不同类型的页面。假设您可以使用正则表达式（或中存在的另一个字段NutchDocument）来区分页面，您应该能够使用index-jexl-filter插件选择性地仅索引那些文章页面。

我想说的是，通常您不会希望完全跳过类别页面（或主页），因为这些类型的页面通常是您抓取的新链接的良好来源。

1 回答 1