我正在使用 Solr 来索引 DOC、DOCX 和 PDF 文件。我已经为文本启用了存储并检查了它。以下是示例 DOC 文件的结果:
,一家移动用户界面 (UI) 软件开发公司,总部位于英国剑桥。整合公司后,高通将他们的界面标记语言及其随附的集成开发环境 (IDE) 重新命名为HYPERLINK "http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1" * \o "UiOne (页面不存在)" uiOne** . 2009 年 3 月,Qualcomm 通知了他们的剑桥工程人员,主要来自从事 HYPERLINK 的部门“http://en.wikipedia.org
该文档包含来自 Wikipdia 的材料。我在http://pastebin.com/8FL9eHJv上捕获了完整的输出
所以 Solr CEl/Tika插入自己的格式,格式的结果显示在搜索输出中。如何解决此问题,以使搜索结果(文本片段)不包含格式?
谷歌搜索告诉我 TIKA 有几种输出格式,那是方法吗?或者是否有一个插件可以在渲染结果之前过滤文本?
相关细节:我的配置接近库存:我的上传命令是一个 python 变体
curl "http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true" -F "myfile=@11qualcomm.doc"
我的 schema.xml http://pastebin.com/VLz2uuDQ
我的 SolrConfig.xml http://pastebin.com/X2J2jj64