0

今天我第一次使用提取物。Solarium 从 PDF 文档中提取元数据并插入到索引中,但不保存内容。我使用了示例2.7 提取查询(来自 Solarium 示例)并将其index.html替换为myfile.pdf但不起作用。有谁知道会发生什么?谢谢

4

1 回答 1

0

我也有同样的问题。我不知道为什么,但是,改变

$query->addFieldMapping('content', 'text');

$query->addFieldMapping('fmap.content', 'text');

确实为我工作。

也许问题出在 /update/extract RequestHandler 的 solrconfig.xml 定义中

<requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="fmap.content">text</str>
<str name="lowernames">true</str>
<str name="uprefix">attr_</str>
<str name="captureAttr">true</str>
</lst>
</requestHandler>

我还验证了,如果不应用我之前解释过的修改,从 Html 文件中提取数据不能按预期工作。如果您再次使用“fmap.content”运行提取测试,您将看到映射在“内容”字段中的 html 页面的内容。

我使用 Solr 4.4.0 和 Solarium 3.1.2 进行了这些测试

希望能帮助到你

于 2013-09-28T16:38:00.573 回答