我试图弄清楚是否可以索引一段 html 并将属性作为元数据与 solr 关联到该内容。例如:
<div class="TODO">Content that needs to be indexed</div>
<div class="FIXME">Fix the broken</div>
上述 div 块的内容需要与 div 块的类名关联进行索引。
我不认为你能做到这一点。Solr 确实有一个去除所有 HTML 编码的 HTML 剥离器。
不过,您需要自己解析这些段。
如果您为每个段创建一个 solr 文档,则可以轻松添加元数据。在一个文档中,您只有可以使用的字段,具体取决于您选择的 div 类,您将在其中添加段。
要将数据添加到 solr,必须使格式适应 solr 格式。
您将 xml 转换为 solr。你可以使用 XSLT。
你的结果应该是这样的:
<add>
<doc>
<field name="TODO">Content that needs to be indexed</field>
<field name="FIXME">Fix the broken</field>
</doc>
</add>
在这里您可以看到如何在 solr xml 中索引数据。