0

我一直在使用 Nutch/Solr/SolrNet 作为我的搜索解决方案,我必须说,这是一种享受。在我正在开发的一个新站点上,我正在使用母版页,因此,页眉和页脚中的内容被编入索引并扭曲了结果。例如,我在标题中有一个指向“联系我们”页面的链接。现在,当我搜索“联系人”时,结果会返回站点中的所有页面。

是否有一个可定制的 Nutch 解析器,我可以传递一个 div id,然后它只索引 div 内的内容。

或者,如果有我可以自定义的基于 .NET 的爬虫。

4

2 回答 2

1

请参阅https://issues.apache.org/jira/browse/NUTCH-585https://issues.apache.org/jira/browse/NUTCH-961

顺便说一句,您可以通过发布到 Nutch 用户列表来获得更多相关的受众

于 2011-05-25T15:18:46.740 回答
1

您可以实现一个 Nutch 过滤器(我喜欢Jericho HTML Parser)来仅提取您需要使用 DOM 操作编制索引的页面部分。您可以使用TextExtractor类来获取要在索引中使用的干净文本(无 HTML 标记)。我通常将这些数据保存在自定义字段中。

于 2011-06-30T23:43:19.897 回答