问题标签 [tika-python]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

4 问题

0 投票

1 回答

145 浏览

python - 使用 tika-python 在 Python 中增加 tika 堆大小

有人可以建议一种在使用 tika-python（在 Windows 上）时给 tika 更大的堆大小（1 GB 左右）的方法吗？

处理非常大的 Microsoft Word 文件时，我从 tika 收到“状态：500”错误。如果我按如下方式从 Windows 命令行运行 tika，错误就会消失：

指定最大堆大小为 1 GByte （-Xmx1G远大于默认值）。

我已经看到了其他语言的几个答案，但没有一个特定于带有 tika-python 的 Python 的答案。

我试过了：

和：

并从 Windows 命令行：

所有 3 种方法都会导致相同的错误，例如

我认为主要问题是当我尝试更改最大堆大小时，Java tika 进程已经在运行 - 不知何故，我需要杀死它，设置最大堆大小，然后重新启动 Java tika 服务器。 如何？

2021-10-19T21:03:38.667

0 投票

0 回答

39 浏览

python-3.x - 我已经使用 python tika 提取了 pdf 文件，但我想提取页眉和页脚详细信息。那么我怎样才能得到那个呢？

从 tika 导入解析器导入 tika

文件名 = "sample.pdf"

PDF_Parse = parser.from_file(文件名)

打印（PDF_Parse ['内容']）

打印（PDF_Parse ['元数据']）

但我想提取页眉和页脚的详细信息。我该怎么办？？？使用python tika？？？

python-3.x pdf-scraping tika-python

2021-11-30T07:19:17.053

0 投票

2 回答

156 浏览

python - 如何从具有特定行的位置的多个pdf中提取文本并存储在Excel中？

我有 100 个 pdf 存储在一个位置，我想从中提取文本并存储在 excel 下面是我想要的 pdf 图像（存储在 page1 中）

需要

仅收货人地址）

python pdf pypdf2 pdfminer tika-python

2022-02-03T11:15:40.653

0 投票

0 回答

28 浏览

python - Tika 服务器无法在部署在 kubernetes 上的气流（从第四次同时运行）中启动

我想问你们中是否有人遇到过类似的错误。

我在一家使用气流的公司工作，部署在 Azure kubernetes 上。

我们有一个 Dag 负责提取有关不同文档的一些信息。在我们从文档中提取的许多内容中，我们使用 tika 来提取 xml。

流程将是：

我们上传 10 个文件。
创建了 10 个不同的 DAG 来从文档中提取信息。
当它使用 tika 提取 xml 时，一些 DAGS 开始失败，因为 tika 服务器无法自行初始化。

关于使用 tika-server 的任务的一些事实：

我们已将重试次数设置为 3
我们将此任务的同时执行限制为 3 个，因此它永远不会失败。

这是我们在 Airflow 中的任务：

我将错误留在这里，尽管我认为它没有太大帮助：

python airflow apache-tika tika-server tika-python

2022-03-02T09:42:34.323

1 2 3 4 5 6 7 8 9 10

问题标签 [tika-python]

python - 使用 tika-python 在 Python 中增加 tika 堆大小

python-3.x - 我已经使用 python tika 提取了 pdf 文件，但我想提取页眉和页脚详细信息。那么我怎样才能得到那个呢？

但我想提取页眉和页脚的详细信息。我该怎么办？？？使用python tika？？？

python - 如何从具有特定行的位置的多个pdf中提取文本并存储在Excel中？

python - Tika 服务器无法在部署在 kubernetes 上的气流（从第四次同时运行）中启动

Reference