solarium - 日光浴室不提取 PDF 内容

Question

今天我第一次使用提取物。Solarium 从 PDF 文档中提取元数据并插入到索引中，但不保存内容。我使用了示例2.7 提取查询（来自 Solarium 示例）并将其index.html替换为myfile.pdf但不起作用。有谁知道会发生什么？谢谢

score 0 · Accepted Answer

我也有同样的问题。我不知道为什么，但是，改变

$query->addFieldMapping('content', 'text');

至

$query->addFieldMapping('fmap.content', 'text');

确实为我工作。

也许问题出在 /update/extract RequestHandler 的 solrconfig.xml 定义中

<requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="fmap.content">text</str>
<str name="lowernames">true</str>
<str name="uprefix">attr_</str>
<str name="captureAttr">true</str>
</lst>
</requestHandler>

我还验证了，如果不应用我之前解释过的修改，从 Html 文件中提取数据不能按预期工作。如果您再次使用“fmap.content”运行提取测试，您将看到映射在“内容”字段中的 html 页面的内容。

我使用 Solr 4.4.0 和 Solarium 3.1.2 进行了这些测试

希望能帮助到你

solarium - 日光浴室不提取 PDF 内容

1 回答 1

Related

Reference