0

我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。这个想法主要是抓取和索引故事页面。为此,我准备了一些域的种子。现在我在 Nutch 中面临一些逻辑问题,即它的行为类似于域的所有级别。让我们举个例子。假设,在获取几个域的主页后,有一些文档实际上不是故事页面,而是一些部分,例如,在新闻网站中有不同的新闻类别链接。如果用户点击一个类别,例如国家,那么新页面将包含很多该类别的新闻。Nutch 抓取该页面,并将许多页面的一些文本存储为其内容。一段时间后,这些页面会改变(更新新闻),如果这些页面被索引,那么在搜索后如果用户转到这个页面,那么文本就会改变。这里只是一个示例页面。

我应该如何以及在哪里处理这种情况?我认为它应该在某个 Nutch 阶段进行处理,以便它应该获取这样的页面,选择它的 url 以向前移动,但不要索引这些页面。这个选项在 Nutch 中是否可用,如果没有,可能的方法是什么?

4

1 回答 1

1

您需要实现一个 IndexingFilter,它将为您不想索引的页面返回 null。

在 Nutch 1.14 中,您可以在 URL 上使用 JexlIndexingFilter 和一个简单的 JEXL 表达式,但我不认为这已被移植到 Nutch 2.x。

只要您知道要从索引中过滤掉的 URL 的格式,编写这样的过滤器应该很容易。

于 2018-08-05T14:28:25.847 回答