0 投票

1 回答

6168 浏览

python - Python Tika 无法读取 PDF - 无法下载 Tika Server

我正在使用 Tika 阅读 PDF，并且我的代码一直工作到昨天。现在，当我运行相同的代码时，我得到了错误，显然 Tika 找不到 Tika 服务器 jar 文件。我正在使用以下代码阅读 PDF

错误跟踪如下

爪哇版

在我尝试相同代码的另一台机器上

当我单击 java 链接（Maven 搜索）http://search.maven.org/remotecontent?filepath=org/apache/tika/tika-server/1.19/tika-server-1.19.jar它给出504 Gateway Time-out

请建议。

2019-06-22T06:38:59.730

0 投票

1 回答

1117 浏览

python - 如何从 tika-python 库设置 TIKA_SERVER_ENDPOINT

https://github.com/chrismatmann/tika-python文档中的优秀 lib tika-python表明可以设置 tika_server.jar 文件以避免在每次使用算法时下载。有没有人这样做并且可以发布配置？

第一次使用该算法时，会下载 tika_server.jar，以便 lib 可以使用它。我想通过在本地设置文件来避免这种下载。

从 PDF 中提取文本

python apache-tika tika-server

2019-06-30T19:20:19.917

0 投票

0 回答

294 浏览

python - 在 docker 中使用 django 运行 tika python

我有一个 django 站点，它使用 tika-python 解析 pdf 并将解析的 pdf 内容存储在 elasticsearch 索引中。它在我的本地机器上运行良好。我想使用 docker 运行这个设置。但是，tika-python 不起作用，因为它需要 java 8 才能在后台运行 REST 服务器。

我的码头文件：

requirements.txt 文件：

在哪里（dockerfile 或要求）以及我应该如何添加 tika 所需的 java 8 以使其在 docker 中工作。在线教程/示例在容器中包含java+tika，很容易实现。不幸的是，在 stackoverflow 中也找不到类似的解决方案。

python django docker elasticsearch tika-server

2019-08-10T15:40:13.773

0 投票

1 回答

170 浏览

apache-tika - Tika Server - 没有书签和图像标签的解析

我正在用tika server v1.20.

Tika 在正文中添加了 [bookmark: xx] 和 [image: xx]。我不想要他们。

样本输出：

天才大脑如何学习 David A. Sousa [图片：天才大脑如何学习] 欢迎来到我们的第三届年度 GATE 家庭图书研究。

复制：

运行服务器 -

放http://localhost:5000/tika

将文件附加为二进制文件和content-type：application/vnd.openxmlformats-officedocument.wordprocessingml.document

输入文件：http ://www.hasd.org/cms_files/resources/website%20book%20study%20how%20the%20brain%20works%20building%20background1.docx

\[(image:|bookmark:).*?\]由于以下情况，使用正则表达式删除此标签是有问题的：

如何使用 tika 服务器而不产生这个标签？如果不可能，如何删除它们？

apache-tika tika-server

2019-10-03T11:19:51.403

0 投票

1 回答

580 浏览

apache-tika - 有没有办法在 tika-server 中关闭嵌入式文档的解析？

我运行 Apache tika-server 1.22 的未修改的 JAX-RS 实例，并将其用作 HTTP 端点服务，我将文件发布到（主要是 Office、PDF 和 RTF）并通过 HTTP 请求获取纯文本再现（使用Accept="text/plain"标题）来自我们的应用程序。

从 Tika 1.15 开始，默认行为现在是“提取所有嵌入文档” TIKA-2096。

我希望能够在我们的 tika 服务器上关闭此行为，以便不提取嵌入式文档，并且我只获得主文档内容的文本再现。

是否可以通过tika-config.xml文件执行此操作，或者我是否需要进行自定义构建和子类EmbeddedDocumentExtractor以便它不做任何事情？

对tika-parser-exclude-pdf-attachments的回答表明您可以通过 subclassing 关闭此行为EmbeddedDocumentExtractor，但我想检查是否可以通过tika-config.xml无需对 tika-server 进行自定义构建来执行此操作。

我看过配置 Tika，但这里没有提到嵌入式文档。

apache-tika tika-server

2019-10-10T08:29:38.527

0 投票

3 回答

1831 浏览

python - AttributeError：运行 Tika 解析器时，“字节”对象没有属性“关闭”

我尝试使用 Tika 运行一个简单的代码解析行来解析 PDF 中的文本（在本例中名为 outputFileName）。这曾经运行没有错误。我最近将我的笔记本电脑送到我们的工作 IT 部门进行软件更新，并且不得不重新安装 Anaconda 并导入某些模块（例如 2019 年 11 月 9 日发布的 Tika 1.22）来运行我的代码。我还从 Tika 导入了 Parser。这是我得到的代码行和错误消息：

代码：

#解析pdf文件中的文本以使用

pdftext = parser.from_file(outputFileName)

错误

我还下载了 Java 8。

tika.py 源代码有问题吗？还是我错过了需要安装的东西？任何帮助将非常感激。

python parsing apache-tika pdf-parsing tika-server

2019-11-11T14:46:04.443

0 投票

1 回答

353 浏览

tesseract - 从 tika-server 获取 hocr 输出

我正在使用 Apache TIKA Server 对 PDF 文件进行 OCR。

我对hOCR输出感兴趣，但只能成功获得纯文本格式的输出。

按照wiki和代码，我正在尝试使用X-Tika-OCR...HTTP 标头配置 Tesseract。在这种情况下，我使用的是X-Tika-OCRoutputType: hocrHTTP 标头，但我得到了没有 HOCR 标记的纯文本输出或 html 输出。

我尝试了端点/tika和/rmeta端点。

curl我使用的命令：

我还尝试将Accept标题设置为 text/plain、text/html text/xhtml 和 text/hocr。没有工作。最后一个出现错误。

我在用：

阿帕奇蒂卡 1.22
正方体 4.1.0-3.1.x86_64
红帽 7

tesseract apache-tika tika-server hocr

2020-01-09T10:40:25.017

0 投票

1 回答

128 浏览

apache-tika - TIKA Server 提取嵌入式资源

我正在使用TIKA-app (v 1.23) 进行一些测试，以从输入文件中提取嵌入式资源，通过-z在命令行上使用app. 此参数启用嵌入式资源提取并将资源写入工作目录。现在，我想使用这个基于TIKA-server 的功能。但是，我无法在文档中找到正确的方法，我想知道或者服务器变体TIKA提供了这个选项？

那么，如何使用 -server 应用程序提取TIKA嵌入式资源？请注意，我不是在寻找嵌入资源的内容，而是寻找实际的二进制文件数据（我想将附件与输入文件分开）

apache-tika tika-server

2020-01-12T16:45:58.010

0 投票

1 回答

334 浏览

python - 带有 Docker 的 Tika 解析器 python 给出 RuntimeError：详细信息：无法启动 Tika 服务器

如果没有 Docker，脚本能够使用 tika 解析 pdf 文件。

但是，当我尝试使用 Docker 时，我收到以下错误，因为 tika 服务器未运行：通过一些阅读，我尝试了以下操作 - 但错误仍然存在。

有人可以帮忙吗？

我最后附上 Dockerfile 并列出正在运行的 docker 容器 -

码头工人拉阿帕奇/蒂卡
docker run -d -p 9998:9998 apache/tika
cat Dockerfile（最后列出）
docker build -t docker_parser 。
docker 运行 docker_parser
码头工人ps -a

Dockerfile：

8. 代码错误：sentence_parser 哎呀！错误类型：发生。详细信息：无法启动 Tika 服务器。错误类型：在行：156

python docker apache-tika tika-server

2020-04-09T17:31:46.750

0 投票

2 回答

150 浏览

python - NiFi Parse PDF 使用 Python Tika 错误：ExecuteStreamCommand

我正在尝试执行以下操作，但我的 ExecuteStreamCommand 出现错误：

Cannot run program "C:\Python36\pythonscript.py" error=193 not a valid Win32 application"

这是在我家的 Windows 工作站上运行的。

GetFile（获取我的 PDF）
ExecuteStreamCommand（调用 Python 脚本用 Tika 解析 PDF，并创建 JSON 文件）
PutFile（输出文件包含我稍后将使用的 JSON）

NiFi 有内置的 PDF 解析器吗？有没有比 Tika 更兼容 NiFi 的东西？

如果没有，我如何从 ExecuteStreamCommand 调用一个？

提前致以问候和感谢！

python apache-nifi apache-tika tika-server

2020-05-02T14:39:50.133

问题标签 [tika-server]

从 PDF 中提取文本

Reference