0

您可以使用具有任何压缩文件格式(zip、tar、gz 等)的 ExtractingRequestHandler 和 Tika 来提取内容以进行索引吗?

我正在使用 curl 向 solr 发送 archived.tar 文件。curl " http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true " -H 'Content-type:application/octet-stream' --data-binary "@/home /archived.tar" 当我查询文档时得到的结果是存档中的文件名被索引为“body_texts”,但这些文件的内容没有被提取或包含。这不是我所期望的行为。参考: http ://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example 。当我使用相同的 curl 命令在存档中发送 1 个实际文档时,提取的内容然后存储在“body_texts”字段中。

我已经添加了所有提取依赖项,如 http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell中的 mat 所示,并且能够成功地从 MS Word、PDF、HTML 文档中提取数据。

我正在使用以下库版本。Solr 1.40,Solr Cell 1.4.1,带有 Tika Core 0.4

鉴于我读过的所有内容,这个版本的 Tika 应该支持从压缩文件中的所有文件中提取数据。任何帮助或建议将不胜感激。

4

1 回答 1

1

简短的回答:Solr Cell 1.4.1 和 Tika Core 0.6。

长答案:在经历了很多头痛之后,我能够让它工作。我将为直接使用 solr 的人和使用 solr 和 Ruby 库 sunspot 的人回答这个问题(这是我的问题)。

这就是我所做的:我使用这个https://github.com/tomasc/sunspot_cell插件来扩展太阳黑子并赋予它附件功能。(如果您不使用 ruby​​/sunspot,请忽略此步骤)

v1.4.1 适用于单个文件,但不适用于压缩文件,所以我不得不探索一下。我从http://lucene.apache.org/solr/下载了 v1.4.1 代码库并获取了 dist/apache-solr-cell-1.4.1.jar 然后我不得不从 1.5 分支http中拉下 Tika 库://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/

您可以单独下载每个,也可以使用 svn 通过

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

或者只是签出库文件夹:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/
于 2011-03-10T16:46:30.020 回答