使用 SOLR 4,如何索引其中包含 HTML 代码的纯文本文档,而不会删除 HTML?
例如,<b>bold text</b>
变成bold text
谢谢!
您存储文本文档的字段的 fieldType 很可能正在实现solr.HTMLStripCharFilterFactory
. 这是在<b> </b>
将文档存储在索引中时从文档中删除标签。您可以在 schema.xml 文件中检查这一点。
您将需要通过删除该CharFilterFactory或定义已删除的新字段类型来修改此字段的fieldType。有关设置架构的更多信息,请参阅以下资源。