“tika-server”的相关标签问题

0 投票

0 回答

377 浏览

python - Tika python不保留pdf中文本的顺序

我正在使用tika-python从 pdf 中提取文本。但是当一个pdf页面中有多个表格时，文本的顺序不会被保留。在我的情况下，页面顶部的表格在通过 tika 提取时位于末尾。

我尝试使用以下自定义配置文件。但它不起作用。我曾尝试将声明保留<property name="sortByPosition" value="True"/>在不同的位置。但没有任何效果。我为 config.xml 引用了这个。

和以下命令来阅读文本：

我做错了什么或者改变配置或保留顺序的方法是不可能的？

2020-05-14T11:12:08.890

0 投票

1 回答

637 浏览

python - Python - Tika Parser - 内容未加载

我有一些 PDF 文件，直到几天前我才使用tika.

我没有更改我的代码中的任何内容，但我不再能够通过运行以下代码查看相同 PDF 中的内容：

直到最近，这在最新安装的 tika 上运行良好conda install -c conda-forge tika

问题似乎是Java没有激活。当我查看时出现以下错误metadata

'X-TIKA:EXCEPTION:runtime': 'java.lang.NullPointerException\n\tat

我不确定以下内容是否有帮助，但元数据也返回了：

X-Parsed-By': ['org.apache.tika.parser.DefaultParser','org.apache.tika.parser.pdf.PDFParser']

我该怎么做才能让 tika 重新开始工作？

如果这有帮助：

编辑通过遵循这个答案，我能够让 Tika 工作

具体来说，我将目录更改为下载 Tika 服务器文件的位置，然后运行： java -jar tika-server-x.x.jar -h 0.0.0.0

一旦我在我的 cmd 行中运行上述内容，服务器就启动了，我的代码工作了，我可以查看content.

如何确保 python 中的 Tika 自动打开服务器以避免这种手动解决方法？是否有我需要设置的环境变量？

python apache-tika tika-server

2020-05-17T02:18:49.607

0 投票

1 回答

962 浏览

apache-tika - Apache Tika 服务器 - 请求标头参数？

Apache Tika 服务器提供了一个 Rest API 来从文档中提取文本。也可以设置特定的请求标头参数，例如X-Tika-PDFOcrStrategy. 例如：

从许多关于 tika 的不同文档中，我发现了这些记录在案的附加标头参数：

但是似乎没有关于如何使用X-Tika-.....?标头参数或支持哪些参数以及哪些不支持的文档。

例如，我想知道是否可以使用以下内容覆盖 ImageType 模式或 DPI：

我的问题是：支持哪些标头参数以及这些参数遵循哪些命名约定？

apache-tika tika-server

2020-05-25T21:26:15.700

0 投票

0 回答

123 浏览

parsing - 如何使用 Apache Tika 在一行中导出段落

我将一个 PDF 文档传递给 Apache Tika 软件，格式如下：

包含以下段落的 PDF 文档：

我得到的文本格式与 PDF 文件中提供的输入文本格式相同。

但预期的输出是：

我想在一行中导出段落，而不是使用与输入文件中提供的相同格式。

我以这种方式打电话给 Tika：

我在 content 变量中收到文件的内容。

是否有任何配置可以让我做到这一点？

parsing apache-tika tika-server

2020-06-10T20:15:55.067

0 投票

1 回答

213 浏览

tika-server - 解析 pdf 文档时，带有 Grobid 的 Tika 抛出错误

我正在尝试从 pdf 文档中提取文档元数据和期刊标题元数据。我验证了 Tika Server (v1.21 / v1.24) 和 Grobid (v0.6.0) 能够独立地从 pdf 文档中提取元数据。但是，当我在 Tika Server 中运行 Grobid 时（遵循 https://cwiki.apache.org/confluence/display/TIKA/GrobidJournalParser中提到的说明），对于同一个 pdf 文档，我收到以下错误（片段）：

我运行以下命令以使用 Grobid 启动 Tika Server：

我运行以下命令来测试元数据提取：

除了抛出上述错误之外，我还在输出中从 Tika 获取文档元数据。但是，Grobid 元数据并未被提取。

感谢任何输入/建议来解决这个问题。谢谢。

tika-server grobid

2020-07-16T10:29:50.753

0 投票

0 回答

337 浏览

java - Tika Parser 无法解析希腊字符

我正在尝试使用 Apache Tika 解析一个 .doc 文件，其中包含 alpha、beta、gamma 等希腊字符，并且 tika 的结果与我的预期完全不同，我正在使用下面的代码来解析 .doc 文件

我在该行中使用 UTF-8 编码

以下是我正在使用的依赖项

word文档中的内容是

当我使用上面的 tika 代码时得到的输出是

UTF-8 编码是否不适合使用 Apache Tika 解析希腊字符？还是我在代码中遗漏了什么？

提前致谢

编辑：这是我正在使用的完整 java 代码

编辑 2：下面是使用 PrintWriter 的代码

编辑 3：我试图解析的字符来自 microsoft word 使用的符号字体，Tika 仅对符号字体中的字符失败

我假设这些不是实际的希腊字符，但看起来像希腊字符

java apache-tika tika-server

2020-08-07T08:48:17.040

0 投票

0 回答

60 浏览

java - Apache Tika 版本升级导致 ClassCastException

我正在努力解决一个问题（使用 Gradle 的 Java/Scala Web 项目），因为我必须将 apache tika 版本从 1.19.1升级到至少版本1.22 （以前的版本存在安全漏洞）。但是当我尝试更改版本（甚至更低版本）时，我收到一个异常

我没有使用任何配置文件，我只升级了库（库内抛出了异常，我在堆栈跟踪中没有参考我的代码）。tika 依赖版本不同，主要关注 org.osgi:org.osgi.core 从 4.0.0 升级到 6.0.0。我在 gradle 中强制在项目中使用 4.0.0 版本，但我收到错误，找不到org.osgi.framework.BundleActivator类。根据文档，类之间的区别是附加注释@ConsumerType。我认为这是造成问题的原因。有没有办法解决这个问题？

java scala apache-tika tika-server

2020-09-04T06:02:24.560

0 投票

1 回答

309 浏览

python-3.x - 如何忽略tika中的扫描图像

我正在尝试解析 tika 中的 pdf 文件。在一些手写扫描文档中，tika 正在解析文件并返回没有意义的垃圾文本。我从这里使用 python tika 包装器。有什么方法可以忽略包含图像的 pdf。Tesseract OCR 解析器已关闭。解析文件后不显示在元数据中。

python-3.x apache-tika tika-server

2020-09-09T15:24:06.670

0 投票

0 回答

255 浏览

metadata - 无法解析 MP4 文件 -MemoryAllocationException：尝试分配 X 字节，但此记录类型的限制为：Y

我正在使用 Tika 服务器来获取各种文件格式的元数据和内容。我正在使用启用了 fileUrl 的服务器。解析使用 quicktime 屏幕记录创建的 .mov 文件时，出现以下错误。

文本提取失败 (null) org.apache.tika.exception.TikaException: Unexpected RuntimeException from org.apache.tika.parser.mp4.MP4Parser@354bc1a2 at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:293 ) 在 org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)

引起：org.mp4parser.MemoryAllocationException：尝试分配1399026269字节，但此记录类型的限制为：536870912。如果您认为此文件没有损坏，请在github上开票以增加此记录的最大允许大小类型。在 org.mp4parser.tools.MemoryUtils.allocateByteBuffer(MemoryUtils.java:30) 在 org.mp4parser.support.AbstractBox.parse(AbstractBox.java:100) 在 org.mp4parser.AbstractBoxParser.parseBox(AbstractBoxParser.java:115)

该文件的大小仅为 20Mb。其他类型的 .mov 文件

内容类型=“视频/快速时间”

正在被解析而没有任何错误。我连接了调试端口，我发现它在转换为新的 IsoFile() 时失败。

非常感谢任何解决此问题的帮助。

我启动服务器，如下所示。

java -jar tikaserver-1.24.1.jar -enableFileUrl -enableUnsecureFeatures

metadata apache-tika tika-server

2020-09-11T10:02:17.857

0 投票

1 回答

148 浏览

apache-tika - Apache TIKA - MediaDataBox iso 文件

似乎 Apacke Tika 1.24.1 正在创建大量 /tmp/MediaDataBox ISO 文件，我的 /tmp 分区被填满。

MediaDataBox ISO 文件有什么用途？

我们能以某种方式告诉 Tika 将其保存在另一个目录中吗？

Tika 在服务器模式下运行如下：

java -Xmx3G -jar tika-server.jar -spawnChild --host=hostname.domain.com

apache-tika tika-server

2020-10-05T17:14:16.500

问题标签 [tika-server]

Reference