1

虽然我觉得这应该是一个标准程序,但我并没有通过搜索找到任何可以很好地说明如何从 Nutch 在爬网期间索引到 Solr 的内容中排除站点导航菜单内容的内容。

也就是说,我在所有被索引的内容中都看到了导航菜单文本,这会损害搜索,因为所有内容都将包含相同的文本。显然我想继续使用站点导航进行爬网,但我不希望它被索引。是否有使用 Nutch 完成此任务的最佳实践?例如,一种将导航包装在某种标签<!-- NO_NUTCH_IDX -->中的方法?

我是 Nutch 的新手(显然),所以我不知道实现这一点的最佳地点。

非常感谢。

4

0 回答 0