问题标签 [tika-python]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 tika-python 在 Python 中增加 tika 堆大小
有人可以建议一种在使用 tika-python(在 Windows 上)时给 tika 更大的堆大小(1 GB 左右)的方法吗?
处理非常大的 Microsoft Word 文件时,我从 tika 收到“状态:500”错误。如果我按如下方式从 Windows 命令行运行 tika,错误就会消失:
指定最大堆大小为 1 GByte (-Xmx1G
远大于默认值)。
我已经看到了其他语言的几个答案,但没有一个特定于带有 tika-python 的 Python 的答案。
我试过了:
和:
并从 Windows 命令行:
所有 3 种方法都会导致相同的错误,例如
我认为主要问题是当我尝试更改最大堆大小时,Java tika 进程已经在运行 - 不知何故,我需要杀死它,设置最大堆大小,然后重新启动 Java tika 服务器。 如何?
python-3.x - 我已经使用 python tika 提取了 pdf 文件,但我想提取页眉和页脚详细信息。那么我怎样才能得到那个呢?
从 tika 导入解析器导入 tika
文件名 = "sample.pdf"
PDF_Parse = parser.from_file(文件名)
打印(PDF_Parse ['内容'])
打印(PDF_Parse ['元数据'])
但我想提取页眉和页脚的详细信息。我该怎么办???使用python tika???
python - Tika 服务器无法在部署在 kubernetes 上的气流(从第四次同时运行)中启动
我想问你们中是否有人遇到过类似的错误。
我在一家使用气流的公司工作,部署在 Azure kubernetes 上。
我们有一个 Dag 负责提取有关不同文档的一些信息。在我们从文档中提取的许多内容中,我们使用 tika 来提取 xml。
流程将是:
- 我们上传 10 个文件。
- 创建了 10 个不同的 DAG 来从文档中提取信息。
- 当它使用 tika 提取 xml 时,一些 DAGS 开始失败,因为 tika 服务器无法自行初始化。
关于使用 tika-server 的任务的一些事实:
- 我们已将重试次数设置为 3
- 我们将此任务的同时执行限制为 3 个,因此它永远不会失败。
这是我们在 Airflow 中的任务:
我将错误留在这里,尽管我认为它没有太大帮助: