0

大家好,您能否通过xml docs传递路径来告诉您是否可以在pdf和word文件中搜索......这样xml文件就会是这样的......

<doc>
    <field name="id">1</field>
    <field name="name">A</field>
    <field name="sk">Acce</field>
    <field name="level">Beginner</field>
    <field name="do">Tuto</field>
    <field name="open">1</field>
    <field name="type">Ct</field>
    <field name="extensis">cl_ex</field>
    <field name="features">Atos</field>
    <field name="downl"></field>
    <field name="source">Atoms</field>
    <field name="description">Ths.</field>
    <field name="file_path">http://www.abcd.com/files/abcd.pdf</field>

  </doc>

  <doc>
    <field name="id">2</field>
    <field name="name">Ar</field>
    <field name="sk">Acrce</field>
    <field name="level">Beginner</field>
    <field name="do">Tuto1</field>
    <field name="open">11</field>
    <field name="type">C1t</field>
    <field name="extensis">cl_exd</field>
    <field name="features">Atos</field>
    <field name="downl"></field>
    <field name="source">ddddd</field>
    <field name="description">Thsdd.</field>
    <field name="file_path">http://www.abcd.com/files/abcd.pdf</field>

  </doc>

因此,如果我在 solr 查询中搜索单词“solr word”,而不是仅在文档中搜索,它还应该进入文件(file_path)并搜索该单词。任何建议,这方面的帮助都会有所帮助..

4

1 回答 1

0

从来没听说过。

但可以通过另一条路线。您可以使用 Apache Tika 将 pdf/doc 文件提取为文本,然后您可以索引所述文本,使您能够在文档“内部”进行搜索。

示例实现:

pdf -> 蒂卡

tika -> pdf 中的文本

来自 pdf && 文件路径的文本 -> solr doc

search solr -> 如果搜索匹配文件的内容,则返回带有文件路径的 doc

于 2013-11-14T14:32:01.277 回答