问题标签 [apache-tika]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2236 浏览

apache-poi - Tika parseToString 调用的问题

我正在使用 POI 从 excel 文件中提取数据。(Excel 表中的第 5 列包含我的文件系统中存在的文件的名称)我循环遍历表的行(使用 POI 提取单元格的内容)并且对于每一行我创建 Tika 实例,并解析在第 5 列带有 Tika “parseToString(file)”,当文件是 Office 文档(excel、ppt、word)时,我收到此错误:

我认为这个问题是 POI 中嵌套使用的结果。一次在 excel 表中,然后再次在 Tika 解析调用中。

听起来合理吗?我该如何处理这个问题?

谢谢 :-) 罗伊斯

0 投票
1 回答
2377 浏览

java - 使用 Apache Tika 提取元数据并存储到 HashMap

我正在尝试使用 apache tika 提取元数据,然后将其放入 HashMap 中。但我的代码只是键而不是该键的值。例如。它只存储标题(作为键)而不是它的值,在它存储关键字(作为键)但不是它的值的方式相同。
如果我尝试查看md包含什么,它会显示:-


任何帮助将不胜感激..

0 投票
1 回答
2030 浏览

java - 试图解析二进制数据......在我的情况下它主要是pdf

这段代码有什么问题...我正在尝试解析 pdf 文件并从中提取文本...但是对于某些 pdf 我能够提取文本...对于某些它会引发错误

而且对于某些pdf,我也没有在md变量中获得任何元数据值……但是对于某些人,我明白了……

这是我的代码..!! ByteArray 有问题??

0 投票
1 回答
4619 浏览

java - 解析二进制文件时出错...(主要是 PDF)

我正在尝试使用 Apache Tika 通过对二进制文件使用 ByteArrayInputStream 来解析 pdf 文件...并且开始对某些 pdf 文件出错,并且对于某些它的解析非常好..早些时候我能够使用 Tika 解析相同的 pdf 文件,但是现在当我尝试使用 ByteArrayInputStream 时,我开始收到错误..我认为 ByteArray 有问题这是我得到的错误..

这是我的代码...




任何建议我做错了什么......!

更新:- 升级到 pdfbox 1.6.0 版本后,我开始收到一些 pdf 的此错误...

对于某些pdf,此错误...

0 投票
1 回答
2766 浏览

java - 解析二进制文件时出错

在将 PDFBOX 版本升级到 1.6.0 后,我正在尝试使用 Apache Tika 解析 pdf 文件......并且我开始为几个 pdf 文件收到此错误。有什么建议么?


这是我的代码。



0 投票
1 回答
1114 浏览

apache - 试图覆盖 Apache Tika 0.9 从 PDFBOX 1.4.0 到 PDFBOX 1.6.0 的依赖关系

我试图添加这个低于依赖而不是高于依赖 tika 以覆盖 Tika 对 PDFBOX 1.6.0 的依赖但它不起作用..

Tika Parser 依赖于 PdfBox 1.4.0 版。我想将 Apache Tika 的这种依赖关系更改为 PdfBox 版本 1.6.0。如何在我的 Pom.xml 文件中执行此操作。这是我的 pom.xml 文件。任何建议将不胜感激。

0 投票
2 回答
646 浏览

solr - Solr:文件实体处理器和增量导入

我正在使用 solr 3.3,我想将增量导入与文件实体处理器和 tika 实体处理器一起使用。完全导入工作正常,但 delta 导入参数不导入新文档。

谢谢

0 投票
2 回答
1388 浏览

ruby-on-rails - 从 Rails 应用程序(Word、PDF、Excel 等)搜索附件

我在 Stack Overflow 上的第一篇文章,所以请温柔一点!我即将为客户启动一个新的 Ruby on Rails (3.1) 项目。他们的要求之一是有一个搜索引擎,它将索引大约 2,000 个文档,这些文档是 PDF、Word、Excel 和 HTML 的混合体。

我曾希望使用thinking-sphinx 或Texticle(在https://www.ruby-toolbox.com/categories/rails_search.html上最受欢迎),但据我了解:

所以我有两个选择:

  1. 选择不同的搜索工具
  2. 尝试将附件的纯文本版本提取到数据库中供thinking-sphinx阅读

您推荐哪种方法?

如果是不同的搜索工具,是哪一个?我的要求非常基本,所以我真的很想要一个很容易设置并且有很多文档、示例和教程的!

如果是提取,您能否推荐用于常见文件类型(如 PDF、Word、Excel 和 HTML)的提取器?

感谢大家。非常感谢您的帮助。

0 投票
1 回答
1193 浏览

solr - 使用 solr 的提取功能时,如何将数据添加到动态字段?

我正在使用一个名为 solr-php-client (http://code.google.com/p/solr-php-client/) 的 PHP 库与我的 Solr 服务器进行交互。我可以从文档中提取数据、存储它并在其上搜索,但我似乎无法让它允许我将自己的数据添加到索引参数中:

我可以查询“文本”并获得结果:

但我无法查询任何动态字段,即“SS_Stage_ms”:

以下是适用的架构定义:

0 投票
1 回答
5393 浏览

drupal - 让 ExtractingRequestHandler 在 Solr 中工作

我正在尝试让 Solr 与 Tika 一起工作,这样我就可以在我的 Drupal 网站中索引 Word 和 PDF 文档。

我查看了Wiki 页面和此页面,它们表明在 solrconfig.xml 中添加了 requestHandler。

我这样做了,现在 Solr 抛出了一个异常:

org.apache.solr.common.SolrException:加载类“org.apache.solr.handler.extraction.ExtractingRequestHandler”时出错

我进行了一些搜索,发现其他人遇到了这个问题,但没有简单的解决方法。我在Windows Server 2003上使用Solr 3.4.0。关于如何解决这个问题的任何想法?

附带说明一下,我已经让 Drupal 使用 Solr 进行搜索,这很有效。但是我不能让 Solr 索引 PDF 和 Word 文档。我确信这是大多数网站的共同需求,但我已经为此花费了数天时间,我无法相信它的文档记录很差,而且很难弄清楚。