1

我已经使用 Solr 有一段时间了,我最近尝试了 solr-cell 组件并且我正在索引一些 PDF,但是我在这个线程中遇到了完全相同的问题。

当我在管理控制台中搜索 *:* 时,会列出 PDF。但是,当我在 PDF 中搜索内容时,我没有得到任何结果。

我已经尝试了那里给出的答案中的命令,但没有运气,我仍然遇到同样的问题,我尝试过不同的 Solr 版本(我使用的是 3.5 btw),不同的 PDF,我已经更改了架构中的字段.xml,我已经修改了 solrconfig.xml 中的 RequestHandlers,但似乎没有任何效果。任何帮助将不胜感激。

4

1 回答 1

0

我终于让它工作了。事实证明这是 fmap.content 输入参数的问题。我没有直接在 solrconfig.xml 文件中的 RequestHandler 上声明它,而是在我用来索引 PDF 文件的 curl 命令中传递它:

curl 'http://localhost:8080/solr/solrcell/update/extract?map.content=text&map.stream_name=id&commit=true' -F "file=@mccm.pdf"

我知道这种方式也应该有效,但正如您所见,有一个“地图”而不是“fmap”(我使用的是以前版本的 solr 中的书籍示例)。

我选择保留在 solrconfig.xml 文件中显式声明的 fmap 输入参数,以免出现任何问题:

<str name="fmap.content">text</str>


谢谢你的帮助。

于 2012-02-09T19:07:44.017 回答