问题标签 [tika-server]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
377 浏览

python - Tika python不保留pdf中文本的顺序

我正在使用tika-python从 pdf 中提取文本。但是当一个pdf页面中有多个表格时,文本的顺序不会被保留。在我的情况下,页面顶部的表格在通过 tika 提取时位于末尾。

我尝试使用以下自定义配置文件。但它不起作用。我曾尝试将声明保留<property name="sortByPosition" value="True"/>在不同的位置。但没有任何效果。我为 config.xml 引用了这个

和以下命令来阅读文本:

我做错了什么或者改变配置或保留顺序的方法是不可能的?

0 投票
1 回答
637 浏览

python - Python - Tika Parser - 内容未加载

我有一些 PDF 文件,直到几天前我才使用tika.

我没有更改我的代码中的任何内容,但我不再能够通过运行以下代码查看相同 PDF 中的内容:

直到最近,这在最新安装的 tika 上运行良好conda install -c conda-forge tika

问题似乎是Java没有激活。当我查看时出现以下错误metadata

'X-TIKA:EXCEPTION:runtime': 'java.lang.NullPointerException\n\tat

我不确定以下内容是否有帮助,但元数据也返回了:

X-Parsed-By': ['org.apache.tika.parser.DefaultParser','org.apache.tika.parser.pdf.PDFParser']

我该怎么做才能让 tika 重新开始工作?

如果这有帮助:

编辑通过遵循这个答案 ,我能够让 Tika 工作

具体来说,我将目录更改为下载 Tika 服务器文件的位置,然后运行: java -jar tika-server-x.x.jar -h 0.0.0.0

一旦我在我的 cmd 行中运行上述内容,服务器就启动了,我的代码工作了,我可以查看content.

如何确保 python 中的 Tika 自动打开服务器以避免这种手动解决方法?是否有我需要设置的环境变量?

0 投票
1 回答
962 浏览

apache-tika - Apache Tika 服务器 - 请求标头参数?

Apache Tika 服务器提供了一个 Rest API 来从文档中提取文本。也可以设置特定的请求标头参数,例如X-Tika-PDFOcrStrategy. 例如:

从许多关于 tika 的不同文档中,我发现了这些记录在案的附加标头参数:

但是似乎没有关于如何使用X-Tika-.....?标头参数或支持哪些参数以及哪些不支持的文档。

例如,我想知道是否可以使用以下内容覆盖 ImageType 模式或 DPI:

我的问题是:支持哪些标头参数以及这些参数遵循哪些命名约定?

0 投票
0 回答
123 浏览

parsing - 如何使用 Apache Tika 在一行中导出段落

我将一个 PDF 文档传递给 Apache Tika 软件,格式如下:

包含以下段落的 PDF 文档:

我得到的文本格式与 PDF 文件中提供的输入文本格式相同。

但预期的输出是:

我想在一行中导出段落,而不是使用与输入文件中提供的相同格式。

我以这种方式打电话给 Tika:

我在 content 变量中收到文件的内容。

是否有任何配置可以让我做到这一点?

0 投票
1 回答
213 浏览

tika-server - 解析 pdf 文档时,带有 Grobid 的 Tika 抛出错误

我正在尝试从 pdf 文档中提取文档元数据和期刊标题元数据。我验证了 Tika Server (v1.21 / v1.24) 和 Grobid (v0.6.0) 能够独立地从 pdf 文档中提取元数据。但是,当我在 Tika Server 中运行 Grobid 时(遵循 https://cwiki.apache.org/confluence/display/TIKA/GrobidJournalParser中提到的说明),对于同一个 pdf 文档,我收到以下错误(片段):

我运行以下命令以使用 Grobid 启动 Tika Server:

我运行以下命令来测试元数据提取:

除了抛出上述错误之外,我还在输出中从 Tika 获取文档元数据。但是,Grobid 元数据并未被提取。

感谢任何输入/建议来解决这个问题。谢谢。

0 投票
0 回答
337 浏览

java - Tika Parser 无法解析希腊字符

我正在尝试使用 Apache Tika 解析一个 .doc 文件,其中包含 alpha、beta、gamma 等希腊字符,并且 tika 的结果与我的预期完全不同,我正在使用下面的代码来解析 .doc 文件

我在该行中使用 UTF-8 编码

以下是我正在使用的依赖项

word文档中的内容是

在此处输入图像描述

当我使用上面的 tika 代码时得到的输出是

在此处输入图像描述

UTF-8 编码是否不适合使用 Apache Tika 解析希腊字符?还是我在代码中遗漏了什么?

提前致谢

编辑:这是我正在使用的完整 java 代码

编辑 2:下面是使用 PrintWriter 的代码

编辑 3:我试图解析的字符来自 microsoft word 使用的符号字体,Tika 仅对符号字体中的字符失败

在此处输入图像描述

我假设这些不是实际的希腊字符,但看起来像希腊字符

0 投票
0 回答
60 浏览

java - Apache Tika 版本升级导致 ClassCastException

我正在努力解决一个问题(使用 Gradle 的 Java/Scala Web 项目),因为我必须将 apache tika 版本从 1.19.1升级到至少版本1.22 (以前的版本存在安全漏洞)。但是当我尝试更改版本(甚至更低版本)时,我收到一个异常

我没有使用任何配置文件,我只升级了库(库内抛出了异常,我在堆栈跟踪中没有参考我的代码)。tika 依赖版本不同,主要关注 org.osgi:org.osgi.core 从 4.0.0 升级到 6.0.0。我在 gradle 中强制在项目中使用 4.0.0 版本,但我收到错误,找不到org.osgi.framework.BundleActivator类。根据文档,类之间的区别是附加注释@ConsumerType。我认为这是造成问题的原因。有没有办法解决这个问题?

0 投票
1 回答
309 浏览

python-3.x - 如何忽略tika中的扫描图像

我正在尝试解析 tika 中的 pdf 文件。在一些手写扫描文档中,tika 正在解析文件并返回没有意义的垃圾文本。我从这里使用 python tika 包装器。有什么方法可以忽略包含图像的 pdf。Tesseract OCR 解析器已关闭。解析文件后不显示在元数据中。

0 投票
0 回答
255 浏览

metadata - 无法解析 MP4 文件 -MemoryAllocationException:尝试分配 X 字节,但此记录类型的限制为:Y

我正在使用 Tika 服务器来获取各种文件格式的元数据和内容。我正在使用启用了 fileUrl 的服务器。解析使用 quicktime 屏幕记录创建的 .mov 文件时,出现以下错误。

文本提取失败 (null) org.apache.tika.exception.TikaException: Unexpected RuntimeException from org.apache.tika.parser.mp4.MP4Parser@354bc1a2 at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:293 ) 在 org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)

引起:org.mp4parser.MemoryAllocationException:尝试分配1399026269字节,但此记录类型的限制为:536870912。如果您认为此文件没有损坏,请在github上开票以增加此记录的最大允许大小类型。在 org.mp4parser.tools.MemoryUtils.allocateByteBuffer(MemoryUtils.java:30) 在 org.mp4parser.support.AbstractBox.parse(AbstractBox.java:100) 在 org.mp4parser.AbstractBoxParser.parseBox(AbstractBoxParser.java:115)

该文件的大小仅为 20Mb。其他类型的 .mov 文件

内容类型=“视频/快速时间”

正在被解析而没有任何错误。我连接了调试端口,我发现它在转换为新的 IsoFile() 时失败。

非常感谢任何解决此问题的帮助。

我启动服务器,如下所示。

java -jar tikaserver-1.24.1.jar -enableFileUrl -enableUnsecureFeatures

0 投票
1 回答
148 浏览

apache-tika - Apache TIKA - MediaDataBox iso 文件

似乎 Apacke Tika 1.24.1 正在创建大量 /tmp/MediaDataBox ISO 文件,我的 /tmp 分区被填满。

MediaDataBox ISO 文件有什么用途?

我们能以某种方式告诉 Tika 将其保存在另一个目录中吗?

Tika 在服务器模式下运行如下:

java -Xmx3G -jar tika-server.jar -spawnChild --host=hostname.domain.com