问题标签 [tika-server]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
466 浏览

tika-server - Apache TIKA:尝试分配长度为 1835606 的数组,但 1000000 是此记录类型的最大值

运行Apache Ticka 1.24.1,如下:

java -Xmx3G -Djava.io.tmpdir=/mytmp/tmp -spawnChild -taskPulseMillis 240000 -jar tika-server.jar --host=hostname.domain.com

可以更改数组长度以不出现此错误吗?

0 投票
0 回答
255 浏览

tika-server - Apache TIKA:org.apache.cxf.interceptor.Fault:XML_WRITE_EXC

Apacke Tika 1.24。

Tika 在服务器模式下运行如下:

java -Xmx3G -jar tika-server.jar -spawnChild --host=hostname.domain.com

我在 Tika Server 日志中观察到以下错误。什么可能导致它?

0 投票
1 回答
669 浏览

tika-server - Apche Tika:如何将控制台日志保存到文件中。使用 log4j?

阿帕奇蒂卡 1.24.1。

我读到有一个名为 log4j 的日志记录工具,但没有找到快速复制的示例。tika 是否有一些命令行参数可以将控制台日志保存到文件中?谢谢。

0 投票
0 回答
227 浏览

nutch - org.apache.tika.utils.XMLReaderUtils 获取 SAXParser 警告:争用等待 SAXParser。考虑增加 XMLReaderUtils.POOL_SIZE

运行 nutch 作业时,它显示为

2020 年 10 月 13 日上午 8:46:18 org.apache.tika.utils.XMLReaderUtils 获取 SAXParser 警告:争用等待 SAXParser。考虑增加 XMLReaderUtils.POOL_SIZE 我可以知道这意味着什么。我使用 num 个线程作为 150 并且 numfetchers 是 3。我是否需要更改此参数。让我知道。

0 投票
1 回答
73 浏览

httpwebrequest - 字母之间的 Tika 额外空格 - 有没有办法通过 Web API 使用 setEnableAutoSpace?

我正在运行库存的 Apache Tika 1.24.1 服务器 (tika-server-1.24.1.jar)。然后,我的 ASP.NET MVC Web 应用程序使用以下 VB.net 代码从 Tika 获取已解析的文档:

该部分有效(返回解析的文本)。

但是,当 Tika 服务器解析某些 PDF 文件时,它会在某些地方添加额外的空格。我在这张 Tika 票证中注意到有一个潜在的解决方案(setEnableAutoSpace)。https://issues.apache.org/jira/browse/TIKA-724

我的问题:有没有办法从 Tika Web 界面设置 setEnableAutoSpace (或者可能在解析文件时设置它)?或者如果您想打开此选项,是否是修补 Java 代码的唯一选项?

谢谢!

0 投票
1 回答
292 浏览

java - 空解析器和 Tika 服务器模式

我无法理解解析器是如何加载到 Tika 中的。从他们的文档来看,Tika-app 似乎与解析器一起预先打包(https://tika.apache.org/1.17/gettingstarted.html)。当我运行这个命令来启动服务器时

我有最新的 tika 版本 1.24.1。他们的文档提到下载 tika-server 并在运行时传递类路径以指向 tika-parsers.jar ( https://cwiki.apache.org/confluence/display/TIKA/Troubleshooting+Tika#TroubleshootingTika-ParsersMissing ) 但我可以在任何地方都找不到parsers.jar 文件。我正在使用 openjdk-jre-1.8.0 来运行它。

0 投票
1 回答
240 浏览

python - 空解析器 tika python

当我对 tika 运行一个简单的命令时,我得到空的解析器。

我回来

0 投票
0 回答
383 浏览

java - 在 kube 环境下如何配置 Apache Tika 以在解析海量文档时获得最大吞吐量?

我正在尝试让 Tika 解析数以千万计的办公文件。Pdfs、docs、excels、xmls等。种类繁多。

吞吐量非常重要。我需要能够在合理的时间内解析这些文件,但同时,准确性也很重要。我希望不到 10% 的文档解析失败。(我所说的失败是指由于 tika 稳定性而失败,例如解析时超时。我不是指由于文档本身而失败)。

我的问题 - 如何在容器化环境中配置 Tika Server 以最大化吞吐量?

我的环境:

  • 我正在使用 Openshift。
  • 每个 tika 解析 pod 有CPU: 2 cores to 2 cores和 Memory: 8 GiB to 10 GiB
  • 我有 10 个 tika 解析 pod 副本。

在每个 pod 上,我运行一个 java 程序,其中有 8 个解析线程。

每个线程:

  • 启动单个 tika 服务器进程(在 spawn 子模式下)
    • Tika 服务器参数:-s -spawnChild -maxChildStartupMillis 120000 -pingPulseMillis 500 -pingTimeoutMillis 30000 -taskPulseMillis 500 -taskTimeoutMillis 120000 -JXmx512m -enableUnsecureFeatures -enableFileUrl
  • 该线程现在将不断地从 files-to-fetch 队列中抓取一个文件并将其发送到 tika 服务器,当没有更多文件要解析时停止。

这些文件中的每一个都本地存储在 pod 中的缓冲区中,因此使用本地文件优化:

它使用的 Tika 网络服务是:

文件不大于 100Mb,tika 文本的最大字节数将为 (writeLimit) 32Mb。

每个 pod 每天解析大约 370,000 个文档。我一直在搞很多不同的设置尝试。

我之前尝试使用实际的 Tika “ForkParser”,但性能远不如生成 tika 服务器。这就是我使用 Tika Server 的原因。

我不讨厌这样的表现结果......但我觉得我最好伸出手来确保没有人在那里理智地检查我的数字并且就像“哇,这太糟糕了表现,你应该像我一样变得xyz!”

有没有人在做类似的事情?如果是这样,您最终选择了哪些设置?

另外,我想知道当我调用我的 Tika Server/rmeta/text端点时,Apache Http Client 是否会在这里造成任何开销。我正在使用共享连接池。说为每个线程使用唯一的 HttpClients.createDefault() 而不是在线程之间共享连接池有什么好处吗?

0 投票
1 回答
347 浏览

python - 带有 python 的 Tika 服务器对大文件返回 None,但适用于小 pdf 的文件

我有一些大大小小的 PDF,我正在尝试使用 python Tika 以字符串格式解析。我在本地 Tika 服务器和转换工作文件,文件大小约为 200mb,但现在我有 1.3gb pdf。所以当我尝试转换它时,它会parser.from_file(large.pdf)返回None. 根据我的猜测,大文件似乎存在内存问题。

所以我的基本问题是为什么大pdf正在返回None以及如何克服它?

部分代码片段:

我也在观察此类消息,仅用于大型 pdf 转换。这是什么意思?

终端日志:运行 python 文件时

[MainThread] [WARNI] Tika 服务器返回状态:500

服务器日志:

WARN /rmeta/text java.lang.OutOfMemoryError: Java 堆空间

0 投票
0 回答
215 浏览

java - Python Tika 错误:URLError:

我一直在使用很多 python tika 从一些 pdf 中提取文本。突然,Tika 不再使用以下代码和类似代码:

或者

每次我收到此错误时:

我试图卸载 tika python、tika server、java、python ......基本上所有东西。奇怪的是,我的第二台电脑突然出现了同样的问题。有什么建议么 ?非常感谢。