如何在 Solr 给出的结果中维护 HTML 文档的原始格式?
我正在尝试在我的公司网站中提供搜索功能,该网站拥有数百万个文档并且所有文档都没有类似的格式,因此很难单独格式化每个文档。
我在 apache 站点上使用Solr 4.1 nightly builds ,它内置了对 solr-cell 和 tika 的支持。即我不需要单独配置它们。
solr-cell 或 tika 会在任何地方保留这些格式吗?
如果它不保留格式,那么我需要使用solr 的resourcename字段从物理文件位置获取每个文档,并应用高亮和其他 solr 现成的功能,但是这个过程太乏味了。
编辑:如果我必须使用 Jayendra 在答案中建议的“HTMLStripCharFilterFactory”,我可以使用什么作为请求处理程序?在这种情况下我还可以提取元数据标签吗?
任何人都可以指导我这件事!
感谢你的支持。!!!