SOLR 有一个名为 Cell 的模块。它使用 Tika 从文档中提取内容并使用 SOLR 对其进行索引。
从https://github.com/apache/lucene-solr/tree/master/solr/contrib/extraction的来源,我得出结论,Cell 将提取的原始文本文档文本放入名为“内容”的字段中。该字段由 SOLR 索引,但不存储。当您查询文档时,“内容”不会出现。
我的 SOLR 实例没有架构(我保留了默认架构)。
UpdateRequestHandler
我正在尝试使用默认值(POST to )来实现类似的行为/solr/corename/update
。POST 请求如下:
<add commitWithin="60000">
<doc>
<field name="content">lorem ipsum</field>
<field name="id">123456</field>
<field name="someotherfield_i">17</field>
</doc>
</add>
以这种方式添加文档后,内容字段将被索引和存储。它出现在查询结果中。我不想这样;这是浪费空间。
关于 Cell 添加文档的方式,我缺少什么?