“tika-server”的相关标签问题

0 投票

0 回答

694 浏览

java - 使用 Tika 解析选择的类型

我希望 Tika 只解析 zip 文件和 pdf 文件。

具有以下内容tika_config.xml：

启动 tika-server 1.17：

提交一个由 pdf ant txt 组成的 zip 文件：

我明白了

X-TIKA:EXCEPTION:embedded_exception对于不是预期类型的文件，在元字段中获取异常堆栈跟踪是否正常？

有没有办法在不引发异常的情况下忽略这些文件，例如将 EmptyParser 与所有可能的类型显式关联？

更新：在为 Tika 定义 .TXT 文件的 MIME 类型中单独的第 1 期，澄清并为第 2 期提供日志。

2018-01-21T19:35:58.770

0 投票

0 回答

350 浏览

java - 告诉 Tika 不要解析 XML

我想配置一个不解析 XML 文件的 Tika 服务器。

我编写了以下配置文件：

此配置告诉 Tika 绝对不解析任何内容。特别是，它不应该解析 XML 文件。此外，它应该无法提取任何文档，因为支持的 EmptyParser 类型是空集。让我们通过启动 Tika 服务器来验证这一点：

并提交一个简单的 XML 文件（tika_config.xml 的副本）：

我们得到：

为什么 Tika 解析那个 XML 文件？此外，为什么它使用 HtmlParser 而不是 XML 解析器？

这种优惠待遇似乎特定于 XML，因为我无法使用纯文本、应用程序/pdf、应用程序/zip、应用程序/八位字节流甚至文本/html 来复制它！但是我找不到任何关于正在发生的事情的提示。

java apache-tika tika-server

2018-01-22T22:58:29.323

0 投票

0 回答

1529 浏览

mime-types - 为 Tika 的 .TXT 文件定义 MIME 类型

我想定义 *.txt files: 的 MIME 类型text/txt，以便 Tika 可以应用比用于text/plain文件的解析器更具体的解析器。

glob*.txt包含在类型的定义text/plain中tika-mimetypes.xml。此外，在我看来，您无法在中重新定义 MIME 类型custom-mimetypes.xml，只能添加新的 glob 或魔术模式。此外，如果我将text/txt类型定义为只有 globtika-mimetypes.xml的子类型，Tika 仍将 txt 文件检测为.text/plain*.txttext/plain

text/plain只为txt文件定义一个子类型是不是很荒谬？如果不是，是否可以仅使用来定义它custom-mimetypes.xml？如果不是，那么扩展 tika 的最简单方法是什么，以便它可以解析不同于（比如说）STEP 3D CAD .stp 文件或 .cfg 文件的 txt 文件？

详细用例：我有大量由（递归）档案组成的数据源。一些纯文本文件很大，我不希望 Tika 解析它们。但是，我想保留所有的 txt 文件。

编辑：指定我也不想保留 .cfg 文件（*.cfg是一个 glob text/plain）

mime-types apache-tika tika-server

2018-01-23T21:52:17.217

0 投票

1 回答

253 浏览

apache-tika - Tika app、Tika Server 和 Java Wrapper 之间有什么区别。使用哪一个以及何时使用？

我想将 Apache Tika 用于企业级的大量文档。我使用哪一个，Tika Server 或 Tika App 或 Java 调用？你能给我推荐一个系统架构吗？（即负载均衡的3-4个Tika物理不同的Server）

apache-tika tika-server

2018-03-01T22:20:05.000

0 投票

0 回答

580 浏览

python-requests - 来自 Python 客户端的 TikaJAXRS PUT

Apache Tika 应该可以通过 HTTP 从 Python 程序访问，但我无法让它工作。

我正在使用这个命令来运行服务器（最后有和没有两个选项）：

它适用于 curl：

但是当我尝试类似的东西时（尝试了不同的标题组合，在这里我重新创建了与 python-tika 客户端使用的相同的标题）：

我尝试使用有效负载以及 fileUrl -WARN javax.ws.rs.ClientErrorException: HTTP 406 Not Acceptable在服务器上具有相同的结果和 java 堆栈跟踪。完整跟踪：

我还尝试比较（与nc -l localhost 5677 | less）两个请求的不同之处（有效载荷缩写）：

从卷曲：

来自 Python 请求库：

问题是，从 Python 调用 Tika 服务器的正确方法是什么？

我还尝试tika了仅客户端模式下的 python 库并通过 jnius 使用 tika-app。使用 tika 客户端，以及将 tika-app.jar 与 pyjnius 一起使用，当我在 celery worker 中使用它们时，我只会冻结（调用永不返回）。同时，pyjnius / tika-app 和 tika-python 脚本都可以在脚本中很好地工作：我还没有弄清楚 celery worker 内部有什么问题。我想，与错误位置的线程和/或初始化有关。但这是另一个问题的话题。

这是 tika-python 的要求：

现在看来这是 tika 服务器的某种问题：

参照：

python-requests apache-tika tika-server

2018-04-07T13:00:49.320

0 投票

0 回答

1240 浏览

apache - Apache Tika REST-Server // 不同状态的代码 422（不可处理实体）？-> 如何区分？

Apache Tika REST 服务器提供带有密码状态代码 422（不可处理实体）的 PDF 文档。如果文件格式不受支持，也会发送 422。

不幸的是，无法区分文件的元数据是否由于加密或格式而无法确定。

当我通过 Tika 应用程序调用文件时，我在控制台中收到消息“加密文件”或“格式无效”。

不幸的是，结果标头也不包含其他信息。

例子：

有没有办法在 REST 调用后获得错误 422 的附加描述？最好通过标题数据的扩展。

非常感谢，问候奥利弗

apache apache-tika tika-server

2018-05-11T12:57:30.727

0 投票

3 回答

2632 浏览

apache - 如何使用 TikaConfig 和 Tika 命令行实用程序启用 TesseractOCRParser？

我已经安装了 apache Tika 1.8，它运行良好，除了 OCR 部分不工作。我安装了 Tesseract，它也可以正常工作。当我尝试发送带有图像的pdf时，我得到以下信息。

警告：Tesseract OCR 已安装并将自动应用于图像文件，除非您已将 TesseractOCRParser 从默认解析器中排除。Tesseract 可能会显着减慢内容提取速度 (TIKA-2359)。从 Tika 1.15（和之前的版本）开始，自动调用 Tesseract。在未来的 Tika 版本中，用户可能需要通过 TikaConfig 打开 TesseractOCRParser。

我可以使用命令行实用程序配置 TikaConfig 吗？还是我必须克隆项目并更新 pom 并重建。我真的不想这样做。

这里有一些关于如何使用命令行实用程序和 TikaConfig 的信息，但我无法弄清楚如何使用它启用 TesseractOCRParser。

任何帮助，非常感谢。

apache configuration ocr tesseract tika-server

2018-08-02T13:59:00.990

0 投票

0 回答

2625 浏览

python - 422 Tika 服务器响应？蒂卡蟒蛇

我一直在尝试让 Apache-Tika 使用这个 python 包：https ://github.com/chrismatmann/tika-python

我的 python 程序中有以下代码：

但我每次都会收到 422 响应：

当我使用以下命令时，Apache Tika 确实有效：

我真的很想用 Tika-Python 包来修复这个错误，因为如果这可行的话，项目的其余部分会容易得多。

python pdf apache-tika http-status-code-422 tika-server

2018-09-06T04:32:23.940

0 投票

2 回答

7069 浏览

python - Python - Apache Tika 单页解析器

我想知道是否有任何方法使用 Tika/Python 仅解析第一页或仅从第一页提取元数据？现在，当我传递 pdf 时，它正在解析每一页。我看了这个链接：Is it possible to extract text by page for word/pdf files using Apache Tika? 但是，此链接在我不熟悉的 java 中解释了更多内容。我希望有一个python解决方案吗？谢谢！

python apache-tika tika-server

2018-11-01T00:05:49.720

0 投票

1 回答

1423 浏览

python - 来自 tika python 模块的警告消息使用 unpack 方法

我目前正在使用tika从 pdf 文件中提取文本。tika我在模块中找到了一个非常快速的方法。这种方法称为unpack. 这是我的代码：

但是，偶尔（不总是！）我会收到以下警告：

重试后代码开始工作。但是，我不明白这个警告，而且重试也需要时间。任何人都知道为什么我会收到此警告？

这是 github 页面： https ://github.com/chrismatmann/tika-python

python python-3.x apache-tika tika-server

2018-11-02T16:07:24.413

问题标签 [tika-server]

Reference