1

我目前正在使用 Solr-Cell 来获取几个 html 页面的内容并将它们编入索引。问题是我在标题中有一个菜单,它显示在所有页面上。此菜单及其所有项目都出现在搜索结果中。我不希望这被索引。

你将如何做到这一点?

是否可以排除某些 DIV(带有类名或 id)?

4

1 回答 1

0

实际上,如果您进行测试,您会看到在 Solr 中使用 Tika 的方式,它剥离了大部分 HTML,包括 div、classes 和 ids 属性。

因此,您可能无法获得所需的粒度,并且可能需要使用 RegexReplaceProcessorFactory UpdateRequestProcessor 之类的东西通过匹配纯文本来删除不需要的部分。

如果您直接从代码中调用 Tika,您可以对其进行更多控制,并且可以将 IdentityHtmlMapper 设置为不进行 HTML 过滤。

于 2013-03-05T04:27:11.573 回答