Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我目前正在使用 Solr-Cell 来获取几个 html 页面的内容并将它们编入索引。问题是我在标题中有一个菜单,它显示在所有页面上。此菜单及其所有项目都出现在搜索结果中。我不希望这被索引。
你将如何做到这一点?
是否可以排除某些 DIV(带有类名或 id)?
实际上,如果您进行测试,您会看到在 Solr 中使用 Tika 的方式,它剥离了大部分 HTML,包括 div、classes 和 ids 属性。
因此,您可能无法获得所需的粒度,并且可能需要使用 RegexReplaceProcessorFactory UpdateRequestProcessor 之类的东西通过匹配纯文本来删除不需要的部分。
如果您直接从代码中调用 Tika,您可以对其进行更多控制,并且可以将 IdentityHtmlMapper 设置为不进行 HTML 过滤。