1

使用 SOLR 4,如何索引其中包含 HTML 代码的纯文本文档,而不会删除 HTML?

例如,<b>bold text</b>变成bold text

谢谢!

4

1 回答 1

2

您存储文本文档的字段的 fieldType 很可能正在实现solr.HTMLStripCharFilterFactory. 这是在<b> </b>将文档存储在索引中时从文档中删除标签。您可以在 schema.xml 文件中检查这一点。

您将需要通过删除该CharFilterFactory或定义已删除的新字段类型来修改此字段的fieldType。有关设置架构的更多信息,请参阅以下资源。

于 2013-04-16T17:13:39.560 回答