lucene - Solr CEL/Tika 输出的格式是什么？以及如何解决？

Question

我正在使用 Solr 来索引 DOC、DOCX 和 PDF 文件。我已经为文本启用了存储并检查了它。以下是示例 DOC 文件的结果：

，一家移动用户界面 (UI) 软件开发公司，总部位于英国剑桥。整合公司后，高通将他们的界面标记语言及其随附的集成开发环境 (IDE) 重新命名为HYPERLINK "http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1" * \o "UiOne (页面不存在)" uiOne** . 2009 年 3 月，Qualcomm 通知了他们的剑桥工程人员，主要来自从事 HYPERLINK 的部门“http://en.wikipedia.org

该文档包含来自 Wikipdia 的材料。我在http://pastebin.com/8FL9eHJv上捕获了完整的输出

所以 Solr CEl/Tika插入自己的格式，格式的结果显示在搜索输出中。如何解决此问题，以使搜索结果（文本片段）不包含格式？

谷歌搜索告诉我 TIKA 有几种输出格式，那是方法吗？或者是否有一个插件可以在渲染结果之前过滤文本？

相关细节：我的配置接近库存：我的上传命令是一个 python 变体

curl "http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true" -F "myfile=@11qualcomm.doc"

我的 schema.xml http://pastebin.com/VLz2uuDQ

我的 SolrConfig.xml http://pastebin.com/X2J2jj64

score 0 · Accepted Answer

您是否询问搜索结果中的额外超链接项。如果是，请尝试将 solrconfig.xml 中的提取请求句柄更新为

<str name="captureAttr">false</str><str name="fmap.a">ignored_</str>

lucene - Solr CEL/Tika 输出的格式是什么？以及如何解决？

1 回答 1

Related

Reference