0

如何在 Solr 给出的结果中维护 HTML 文档的原始格式?

我正在尝试在我的公司网站中提供搜索功能,该网站拥有数百万个文档并且所有文档都没有类似的格式,因此很难单独格式化每个文档。

我在 apache 站点上使用Solr 4.1 nightly builds ,它内置了对 solr-cell 和 tika 的支持。即我不需要单独配置它们。

solr-cell 或 tika 会在任何地方保留这些格式吗?

如果它不保留格式,那么我需要使用solr 的resourcename字段从物理文件位置获取每个文档,并应用高亮和其他 solr 现成的功能,但是这个过程太乏味了。

编辑:如果我必须使用 Jayendra 在答案中建议的“HTMLStripCharFilterFactory”,我可以使用什么作为请求处理程序?在这种情况下我还可以提取元数据标签吗?

任何人都可以指导我这件事!

感谢你的支持。!!!

4

1 回答 1

2

带有 Tika 的 Solr Cell 不保持文档的原始格式。
您只能从通过 Tika 提供给 Solr 的文档中提取文本。

否则,您必须将 html 文档作为普通 Solr 字段提供并应用HTMLStripCharFilterFactory过滤器来维护两个副本。

当stored=true 时,Solr 将使用HTML 字段维护原始文档。
但是,对于 Search (indexed=true),搜索只会发生在 Content 上而不是 html 元素上。

于 2013-02-08T10:56:13.317 回答