问题标签 [tika-server]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
26 浏览

tesseract - Tesseract 4.1.1 与 Tika 1.26 的兼容性

有谁知道/使用过 Tesseract 4.1.1 或更高版本和 Apache Tika 1.26?我一直在使用带有 Tika 1.26 的 Tesseract 3.x 版本,它工作得很好,但是将 Tesseract 升级到 4.1.1 并不能提取数据。想检查这是一个已知的兼容性问题还是存在其他问题。

0 投票
0 回答
44 浏览

java - Apache Tika:将 Apache Tika 服务器 REST 端点 (Jax-Rs) http 转换为 https

我们使用 Apache Tika 从文件(多种格式)中提取数据。我们从 .Net 代码内部调用 Tika 服务器 Rest 端点来执行数据提取过程。我们正在尝试研究是否可以将 SSL/TLS 支持添加到 Tika 服务器 REST 端点。任何帮助都感激不尽。

0 投票
0 回答
28 浏览

python - Tika 服务器无法在部署在 kubernetes 上的气流(从第四次同时运行)中启动

我想问你们中是否有人遇到过类似的错误。

我在一家使用气流的公司工作,部署在 Azure kubernetes 上。

我们有一个 Dag 负责提取有关不同文档的一些信息。在我们从文档中提取的许多内容中,我们使用 tika 来提取 xml。

流程将是:

  • 我们上传 10 个文件。
  • 创建了 10 个不同的 DAG 来从文档中提取信息。
  • 当它使用 tika 提取 xml 时,一些 DAGS 开始失败,因为 tika 服务器无法自行初始化。

关于使用 tika-server 的任务的一些事实:

  • 我们已将重试次数设置为 3
  • 我们将此任务的同时执行限制为 3 个,因此它永远不会失败。

这是我们在 Airflow 中的任务:

我将错误留在这里,尽管我认为它没有太大帮助: