solr - Solr 能否保留其结果中提供给它的 HTML 文档的格式？

Question

如何在 Solr 给出的结果中维护 HTML 文档的原始格式？

我正在尝试在我的公司网站中提供搜索功能，该网站拥有数百万个文档并且所有文档都没有类似的格式，因此很难单独格式化每个文档。

solr-cell 或 tika 会在任何地方保留这些格式吗？

如果它不保留格式，那么我需要使用solr 的resourcename字段从物理文件位置获取每个文档，并应用高亮和其他 solr 现成的功能，但是这个过程太乏味了。

编辑：如果我必须使用 Jayendra 在答案中建议的“HTMLStripCharFilterFactory”，我可以使用什么作为请求处理程序？在这种情况下我还可以提取元数据标签吗？

任何人都可以指导我这件事！

感谢你的支持。！！！

score 2 · Accepted Answer

带有 Tika 的 Solr Cell 不保持文档的原始格式。
您只能从通过 Tika 提供给 Solr 的文档中提取文本。

否则，您必须将 html 文档作为普通 Solr 字段提供并应用HTMLStripCharFilterFactory过滤器来维护两个副本。

当stored=true 时，Solr 将使用HTML 字段维护原始文档。
但是，对于 Search (indexed=true)，搜索只会发生在 Content 上而不是 html 元素上。

1 回答 1