问题标签 [apache-tika]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1189 问题

0 投票

1 回答

2236 浏览

apache-poi - Tika parseToString 调用的问题

我正在使用 POI 从 excel 文件中提取数据。（Excel 表中的第 5 列包含我的文件系统中存在的文件的名称）我循环遍历表的行（使用 POI 提取单元格的内容）并且对于每一行我创建 Tika 实例，并解析在第 5 列带有 Tika “parseToString(file)”，当文件是 Office 文档（excel、ppt、word）时，我收到此错误：

我认为这个问题是 POI 中嵌套使用的结果。一次在 excel 表中，然后再次在 Tika 解析调用中。

听起来合理吗？我该如何处理这个问题？

谢谢 :-) 罗伊斯

apache-poi apache-tika

2011-09-07T08:13:44.520

0 投票

1 回答

2377 浏览

java - 使用 Apache Tika 提取元数据并存储到 HashMap

我正在尝试使用 apache tika 提取元数据，然后将其放入 HashMap 中。但我的代码只是键而不是该键的值。例如。它只存储标题（作为键）而不是它的值，在它存储关键字（作为键）但不是它的值的方式相同。
如果我尝试查看md包含什么，它会显示：-

任何帮助将不胜感激..

java apache-tika

2011-09-15T23:52:09.293

0 投票

1 回答

2030 浏览

java - 试图解析二进制数据......在我的情况下它主要是pdf

这段代码有什么问题...我正在尝试解析 pdf 文件并从中提取文本...但是对于某些 pdf 我能够提取文本...对于某些它会引发错误

而且对于某些pdf，我也没有在md变量中获得任何元数据值……但是对于某些人，我明白了……

这是我的代码..!! ByteArray 有问题？？

java parsing apache-tika

2011-09-16T03:44:32.540

0 投票

1 回答

4619 浏览

java - 解析二进制文件时出错...（主要是 PDF）

我正在尝试使用 Apache Tika 通过对二进制文件使用 ByteArrayInputStream 来解析 pdf 文件...并且开始对某些 pdf 文件出错，并且对于某些它的解析非常好..早些时候我能够使用 Tika 解析相同的 pdf 文件，但是现在当我尝试使用 ByteArrayInputStream 时，我开始收到错误..我认为 ByteArray 有问题这是我得到的错误..

这是我的代码...

任何建议我做错了什么......！

更新：- 升级到 pdfbox 1.6.0 版本后，我开始收到一些 pdf 的此错误...

对于某些pdf，此错误...

java parsing apache-tika pdf-parsing

2011-09-20T17:28:23.523

0 投票

1 回答

2766 浏览

java - 解析二进制文件时出错

在将 PDFBOX 版本升级到 1.6.0 后，我正在尝试使用 Apache Tika 解析 pdf 文件......并且我开始为几个 pdf 文件收到此错误。有什么建议么？

这是我的代码。

java pdfbox apache-tika

2011-09-20T19:13:36.300

0 投票

1 回答

1114 浏览

apache - 试图覆盖 Apache Tika 0.9 从 PDFBOX 1.4.0 到 PDFBOX 1.6.0 的依赖关系

我试图添加这个低于依赖而不是高于依赖 tika 以覆盖 Tika 对 PDFBOX 1.6.0 的依赖但它不起作用..

Tika Parser 依赖于 PdfBox 1.4.0 版。我想将 Apache Tika 的这种依赖关系更改为 PdfBox 版本 1.6.0。如何在我的 Pom.xml 文件中执行此操作。这是我的 pom.xml 文件。任何建议将不胜感激。

apache maven pom.xml apache-tika

2011-09-21T18:16:37.310

0 投票

2 回答

646 浏览

solr - Solr：文件实体处理器和增量导入

我正在使用 solr 3.3，我想将增量导入与文件实体处理器和 tika 实体处理器一起使用。完全导入工作正常，但 delta 导入参数不导入新文档。

谢谢

solr apache-tika dataimporthandler delta-index

2011-09-26T07:57:18.653

0 投票

2 回答

1388 浏览

ruby-on-rails - 从 Rails 应用程序（Word、PDF、Excel 等）搜索附件

我在 Stack Overflow 上的第一篇文章，所以请温柔一点！我即将为客户启动一个新的 Ruby on Rails (3.1) 项目。他们的要求之一是有一个搜索引擎，它将索引大约 2,000 个文档，这些文档是 PDF、Word、Excel 和 HTML 的混合体。

我曾希望使用thinking-sphinx 或Texticle（在https://www.ruby-toolbox.com/categories/rails_search.html上最受欢迎），但据我了解：

Texticle 需要 PostgreSQL。我在 MySQL 上。
thinking-sphinx 不在文件系统上索引文件。
即使我将附件保存到数据库中，thinking-sphinx 仍然无法工作，因为它需要纯文本（根据http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff）

所以我有两个选择：

选择不同的搜索工具
尝试将附件的纯文本版本提取到数据库中供thinking-sphinx阅读

您推荐哪种方法？

如果是不同的搜索工具，是哪一个？我的要求非常基本，所以我真的很想要一个很容易设置并且有很多文档、示例和教程的！

如果是提取，您能否推荐用于常见文件类型（如 PDF、Word、Excel 和 HTML）的提取器？

感谢大家。非常感谢您的帮助。

ruby-on-rails search attachment apache-tika

2011-10-12T11:14:37.943

0 投票

1 回答

1193 浏览

solr - 使用 solr 的提取功能时，如何将数据添加到动态字段？

我正在使用一个名为 solr-php-client (http://code.google.com/p/solr-php-client/) 的 PHP 库与我的 Solr 服务器进行交互。我可以从文档中提取数据、存储它并在其上搜索，但我似乎无法让它允许我将自己的数据添加到索引参数中：

我可以查询“文本”并获得结果：

但我无法查询任何动态字段，即“SS_Stage_ms”：

以下是适用的架构定义：

solr lucene apache-tika solr-cell

2011-10-13T15:06:19.657

0 投票

1 回答

5393 浏览

drupal - 让 ExtractingRequestHandler 在 Solr 中工作

我正在尝试让 Solr 与 Tika 一起工作，这样我就可以在我的 Drupal 网站中索引 Word 和 PDF 文档。

我查看了Wiki 页面和此页面，它们表明在 solrconfig.xml 中添加了 requestHandler。

我这样做了，现在 Solr 抛出了一个异常：

org.apache.solr.common.SolrException：加载类“org.apache.solr.handler.extraction.ExtractingRequestHandler”时出错

我进行了一些搜索，发现其他人遇到了这个问题，但没有简单的解决方法。我在Windows Server 2003上使用Solr 3.4.0。关于如何解决这个问题的任何想法？

附带说明一下，我已经让 Drupal 使用 Solr 进行搜索，这很有效。但是我不能让 Solr 索引 PDF 和 Word 文档。我确信这是大多数网站的共同需求，但我已经为此花费了数天时间，我无法相信它的文档记录很差，而且很难弄清楚。

drupal solr apache-tika solr-cell

2011-10-27T15:56:52.317

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-tika]

而且对于某些pdf，我也没有在md变量中获得任何元数据值……但是对于某些人，我明白了……

Reference