问题标签 [tika-python]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
145 浏览

python - 使用 tika-python 在 Python 中增加 tika 堆大小

有人可以建议一种在使用 tika-python(在 Windows 上)时给 tika 更大的堆大小(1 GB 左右)的方法吗?

处理非常大的 Microsoft Word 文件时,我从 tika 收到“状态:500”错误。如果我按如下方式从 Windows 命令行运行 tika,错误就会消失:

指定最大堆大小为 1 GByte (-Xmx1G远大于默认值)。

我已经看到了其他语言的几个答案,但没有一个特定于带有 tika-python 的 Python 的答案。

我试过了:

和:

并从 Windows 命令行:

所有 3 种方法都会导致相同的错误,例如

我认为主要问题是当我尝试更改最大堆大小时,Java tika 进程已经在运行 - 不知何故,我需要杀死它,设置最大堆大小,然后重新启动 Java tika 服务器。 如何?

0 投票
0 回答
39 浏览

python-3.x - 我已经使用 python tika 提取了 pdf 文件,但我想提取页眉和页脚详细信息。那么我怎样才能得到那个呢?

从 tika 导入解析器导入 tika

文件名 = "sample.pdf"

PDF_Parse = parser.from_file(文件名)

打印(PDF_Parse ['内容'])

打印(PDF_Parse ['元数据'])

但我想提取页眉和页脚的详细信息。我该怎么办???使用python tika???

0 投票
2 回答
156 浏览

python - 如何从具有特定行的位置的多个pdf中提取文本并存储在Excel中?

我有 100 个 pdf 存储在一个位置,我想从中提取文本并存储在 excel 下面是我想要的 pdf 图像(存储在 page1 中)

在此处输入图像描述 在此处输入图像描述

需要

在此处输入图像描述

仅收货人地址) 在此处输入图像描述

0 投票
0 回答
28 浏览

python - Tika 服务器无法在部署在 kubernetes 上的气流(从第四次同时运行)中启动

我想问你们中是否有人遇到过类似的错误。

我在一家使用气流的公司工作,部署在 Azure kubernetes 上。

我们有一个 Dag 负责提取有关不同文档的一些信息。在我们从文档中提取的许多内容中,我们使用 tika 来提取 xml。

流程将是:

  • 我们上传 10 个文件。
  • 创建了 10 个不同的 DAG 来从文档中提取信息。
  • 当它使用 tika 提取 xml 时,一些 DAGS 开始失败,因为 tika 服务器无法自行初始化。

关于使用 tika-server 的任务的一些事实:

  • 我们已将重试次数设置为 3
  • 我们将此任务的同时执行限制为 3 个,因此它永远不会失败。

这是我们在 Airflow 中的任务:

我将错误留在这里,尽管我认为它没有太大帮助: