asp.net - Nutch 的自定义解析器（或开源 .NET Crawler）

Question

我一直在使用 Nutch/Solr/SolrNet 作为我的搜索解决方案，我必须说，这是一种享受。在我正在开发的一个新站点上，我正在使用母版页，因此，页眉和页脚中的内容被编入索引并扭曲了结果。例如，我在标题中有一个指向“联系我们”页面的链接。现在，当我搜索“联系人”时，结果会返回站点中的所有页面。

是否有一个可定制的 Nutch 解析器，我可以传递一个 div id，然后它只索引 div 内的内容。

或者，如果有我可以自定义的基于 .NET 的爬虫。

score 1 · Accepted Answer

顺便说一句，您可以通过发布到 Nutch 用户列表来获得更多相关的受众

score 1 · Accepted Answer

您可以实现一个 Nutch 过滤器（我喜欢Jericho HTML Parser）来仅提取您需要使用 DOM 操作编制索引的页面部分。您可以使用TextExtractor类来获取要在索引中使用的干净文本（无 HTML 标记）。我通常将这些数据保存在自定义字段中。

2 回答 2