问题标签 [tika-server]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python Tika 无法读取 PDF - 无法下载 Tika Server
我正在使用 Tika 阅读 PDF,并且我的代码一直工作到昨天。现在,当我运行相同的代码时,我得到了错误,显然 Tika 找不到 Tika 服务器 jar 文件。我正在使用以下代码阅读 PDF
错误跟踪如下
爪哇版
在我尝试相同代码的另一台机器上
当我单击 java 链接(Maven 搜索)http://search.maven.org/remotecontent?filepath=org/apache/tika/tika-server/1.19/tika-server-1.19.jar它给出504 Gateway Time-out
请建议。
python - 如何从 tika-python 库设置 TIKA_SERVER_ENDPOINT
https://github.com/chrismatmann/tika-python文档中的优秀 lib tika-python表明可以设置 tika_server.jar 文件以避免在每次使用算法时下载。有没有人这样做并且可以发布配置?
第一次使用该算法时,会下载 tika_server.jar,以便 lib 可以使用它。我想通过在本地设置文件来避免这种下载。
从 PDF 中提取文本
python - 在 docker 中使用 django 运行 tika python
我有一个 django 站点,它使用 tika-python 解析 pdf 并将解析的 pdf 内容存储在 elasticsearch 索引中。它在我的本地机器上运行良好。我想使用 docker 运行这个设置。但是,tika-python 不起作用,因为它需要 java 8 才能在后台运行 REST 服务器。
我的码头文件:
requirements.txt 文件:
在哪里(dockerfile 或要求)以及我应该如何添加 tika 所需的 java 8 以使其在 docker 中工作。在线教程/示例在容器中包含java+tika,很容易实现。不幸的是,在 stackoverflow 中也找不到类似的解决方案。
apache-tika - Tika Server - 没有书签和图像标签的解析
我正在用tika server v1.20
.
Tika 在正文中添加了 [bookmark: xx] 和 [image: xx]。我不想要他们。
样本输出:
天才大脑如何学习 David A. Sousa [图片:天才大脑如何学习] 欢迎来到我们的第三届年度 GATE 家庭图书研究。
复制:
运行服务器 -
放http://localhost:5000/tika
将文件附加为二进制文件和content-type
:application/vnd.openxmlformats-officedocument.wordprocessingml.document
\[(image:|bookmark:).*?\]
由于以下情况,使用正则表达式删除此标签是有问题的:
如何使用 tika 服务器而不产生这个标签?如果不可能,如何删除它们?
apache-tika - 有没有办法在 tika-server 中关闭嵌入式文档的解析?
我运行 Apache tika-server 1.22 的未修改的 JAX-RS 实例,并将其用作 HTTP 端点服务,我将文件发布到(主要是 Office、PDF 和 RTF)并通过 HTTP 请求获取纯文本再现(使用Accept="text/plain"
标题)来自我们的应用程序。
从 Tika 1.15 开始,默认行为现在是“提取所有嵌入文档” TIKA-2096。
我希望能够在我们的 tika 服务器上关闭此行为,以便不提取嵌入式文档,并且我只获得主文档内容的文本再现。
是否可以通过tika-config.xml
文件执行此操作,或者我是否需要进行自定义构建和子类EmbeddedDocumentExtractor
以便它不做任何事情?
对tika-parser-exclude-pdf-attachments的回答表明您可以通过 subclassing 关闭此行为EmbeddedDocumentExtractor
,但我想检查是否可以通过tika-config.xml
无需对 tika-server 进行自定义构建来执行此操作。
我看过配置 Tika,但这里没有提到嵌入式文档。
python - AttributeError:运行 Tika 解析器时,“字节”对象没有属性“关闭”
我尝试使用 Tika 运行一个简单的代码解析行来解析 PDF 中的文本(在本例中名为 outputFileName)。这曾经运行没有错误。我最近将我的笔记本电脑送到我们的工作 IT 部门进行软件更新,并且不得不重新安装 Anaconda 并导入某些模块(例如 2019 年 11 月 9 日发布的 Tika 1.22)来运行我的代码。我还从 Tika 导入了 Parser。这是我得到的代码行和错误消息:
代码:
#解析pdf文件中的文本以使用
pdftext = parser.from_file(outputFileName)
错误
我还下载了 Java 8。
tika.py 源代码有问题吗?还是我错过了需要安装的东西?任何帮助将非常感激。
tesseract - 从 tika-server 获取 hocr 输出
我正在使用 Apache TIKA Server 对 PDF 文件进行 OCR。
我对hOCR输出感兴趣,但只能成功获得纯文本格式的输出。
按照wiki和代码,我正在尝试使用X-Tika-OCR...
HTTP 标头配置 Tesseract。在这种情况下,我使用的是X-Tika-OCRoutputType: hocr
HTTP 标头,但我得到了没有 HOCR 标记的纯文本输出或 html 输出。
我尝试了端点/tika
和/rmeta
端点。
curl
我使用的命令:
我还尝试将Accept
标题设置为 text/plain、text/html text/xhtml 和 text/hocr。没有工作。最后一个出现错误。
我在用:
- 阿帕奇蒂卡 1.22
- 正方体 4.1.0-3.1.x86_64
- 红帽 7
apache-tika - TIKA Server 提取嵌入式资源
我正在使用TIKA
-app (v 1.23
) 进行一些测试,以从输入文件中提取嵌入式资源,通过-z
在命令行上使用app
. 此参数启用嵌入式资源提取并将资源写入工作目录。现在,我想使用这个基于TIKA
-server 的功能。但是,我无法在文档中找到正确的方法,我想知道或者服务器变体TIKA
提供了这个选项?
那么,如何使用 -server 应用程序提取TIKA
嵌入式资源?请注意,我不是在寻找嵌入资源的内容,而是寻找实际的二进制文件数据(我想将附件与输入文件分开)
python - 带有 Docker 的 Tika 解析器 python 给出 RuntimeError:详细信息:无法启动 Tika 服务器
如果没有 Docker,脚本能够使用 tika 解析 pdf 文件。
但是,当我尝试使用 Docker 时,我收到以下错误,因为 tika 服务器未运行:通过一些阅读,我尝试了以下操作 - 但错误仍然存在。
有人可以帮忙吗?
我最后附上 Dockerfile 并列出正在运行的 docker 容器 -
- 码头工人拉阿帕奇/蒂卡
- docker run -d -p 9998:9998 apache/tika
- cat Dockerfile(最后列出)
- docker build -t docker_parser 。
docker 运行 docker_parser
码头工人ps -a
- Dockerfile:
8. 代码错误:sentence_parser 哎呀!错误类型:发生。详细信息:无法启动 Tika 服务器。错误类型:在行:156
python - NiFi Parse PDF 使用 Python Tika 错误:ExecuteStreamCommand
我正在尝试执行以下操作,但我的 ExecuteStreamCommand 出现错误:
Cannot run program "C:\Python36\pythonscript.py" error=193 not a valid Win32 application"
这是在我家的 Windows 工作站上运行的。
- GetFile(获取我的 PDF)
- ExecuteStreamCommand(调用 Python 脚本用 Tika 解析 PDF,并创建 JSON 文件)
- PutFile(输出文件包含我稍后将使用的 JSON)
NiFi 有内置的 PDF 解析器吗?有没有比 Tika 更兼容 NiFi 的东西?
如果没有,我如何从 ExecuteStreamCommand 调用一个?
提前致以问候和感谢!