solr - Apache Nutch 部分页面处理技巧

Question

我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。这个想法主要是抓取和索引故事页面。为此，我准备了一些域的种子。现在我在 Nutch 中面临一些逻辑问题，即它的行为类似于域的所有级别。让我们举个例子。假设，在获取几个域的主页后，有一些文档实际上不是故事页面，而是一些部分，例如，在新闻网站中有不同的新闻类别链接。如果用户点击一个类别，例如国家，那么新页面将包含很多该类别的新闻。Nutch 抓取该页面，并将许多页面的一些文本存储为其内容。一段时间后，这些页面会改变（更新新闻），如果这些页面被索引，那么在搜索后如果用户转到这个页面，那么文本就会改变。这里只是一个示例页面。

我应该如何以及在哪里处理这种情况？我认为它应该在某个 Nutch 阶段进行处理，以便它应该获取这样的页面，选择它的 url 以向前移动，但不要索引这些页面。这个选项在 Nutch 中是否可用，如果没有，可能的方法是什么？

score 1 · Accepted Answer

您需要实现一个 IndexingFilter，它将为您不想索引的页面返回 null。

在 Nutch 1.14 中，您可以在 URL 上使用 JexlIndexingFilter 和一个简单的 JEXL 表达式，但我不认为这已被移植到 Nutch 2.x。

只要您知道要从索引中过滤掉的 URL 的格式，编写这样的过滤器应该很容易。

solr - Apache Nutch 部分页面处理技巧

1 回答 1

Related

Reference