问题标签 [tika-server]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
124 浏览

apache-tika - 如何使用 Tika 服务器限制提取文本的数量?

在我的场景中,我有一些大型 PDF 文件,并希望限制 tika 服务器提取和返回的文本数量。我知道可以直接使用 Java 库。/tika但是,在向 tika-server端点发出 HTTP 请求时,我该怎么做呢?

0 投票
0 回答
141 浏览

java - Tika 应用程序因 causeForTermination='MAIN_LOOP_EXCEPTION_NO_RESTART' 而失败

我正在使用 tika-app-1.14.jar 使用命令行将我的 pdf 和图像文件转换为文本。

它运行良好,但是当我从自动化工具运行相同的脚本时,它会失败,说*causeForTermination='MAIN_LOOP_EXCEPTION_NO_RESTART'*并且不会将文件转换为文本。找不到此问题的原因。

0 投票
2 回答
761 浏览

java - Apache Tika:通过 Java 中的 Rest 解析 docx 文件

我在服务器模式下使用 Appache Tika。我需要开发用于解析文件的 java rest 客户端。对于 pdf 文件上传,我正在使用代码:

使用 apache.http 库。现在我尝试开发 docx 部分,但我不知道我需要提供哪个 mimeType(应用程序/docx 给我错误)。如果没有 mimeTipe,我会在 Tika 服务器中收到异常“不支持的媒体类型”。所以我需要提供哪种类型,我需要做一些其他的改变。

解决了!

0 投票
0 回答
190 浏览

cygwin - 通过 tika-app-XYjar 输出 TikaBatch

我正在尝试使用(在 cygwin 中)提取“输入”中存在的一堆文档(.pdf、.doc 等)的文本

CauseForTermination 是“COMPLETED_NORMALLY”,但我在输出文件夹中看不到任何文件。我没有具体说明什么?

0 投票
1 回答
225 浏览

java - JNIUS 和 TIKA - 尝试 parseToString 时出错

尝试使用 jnius 运行 tike-app 但遇到问题(macOS Sierra、Java 1.8 JDK、Python 2.7 和 Python 3.6)一切正常(tika.detect 的输出正常)直到parseToString命令。如果您运行此命令,似乎会弹出一个炫耀的窗口(也使用 java 程序进行了测试,并且可以正常工作)。但是使用 jnius 运行它会停止工作,并且没有输出也没有错误。

0 投票
0 回答
527 浏览

php - PHP 中的 CURL 使用远程文件调用 Tika 服务器

我已经坚持了很长一段时间了。我想使用托管在专用于此的外部服务器上的 Tika 将 PDF 解析为文本。它应该适用于任何远程 pdf url 和任何 Tika 服务器(目前正在使用这个免费测试一些了不起的家伙设置)。

无论如何,此命令在命令行上完美运行,但无法将其转换为 PHP,我希望能够获取结果文本并将其保存到 db,而不必使用 exec()。

这是我到目前为止在 PHP 中所拥有的,但它不起作用并且找不到原因:

谢谢先进

0 投票
0 回答
294 浏览

java - 获取文件 apache tika TikaJAXRS 的所有元数据

嗨,我将https://wiki.apache.org/tika/TikaJAXRS部署到服务器,当我上传文件并调用时,/meta 我得到以下 docx 文件的响应

u'{"Content-Encoding":"UTF-16LE","Content-Type":"application/json; charset\u003dUTF-16LE","X-Parsed-By":["org.apache.tika.parser .DefaultParser","org.apache.tika.parser.txt.TXTParser"],"language":"bn"}')

1.文件语言是英文但tika返回'bn'?

2.这是我将获得的唯一元数据吗?文件所有者等怎么样?

代码:我使用 python

0 投票
0 回答
140 浏览

html - Apache Tika 配置包括 div 之间的空间

我需要知道配置 Apache Tika 的方法。

现在我们正在使用它来解析我们的 html 文件,然后根据从 Apache Tika 解析器获得的解析数据进行搜索。

问题:Apache tika 实际上合并了来自不同 div 的可用数据,并且不包括它们之间的空间。

例如:如果我们有如下的 div:

解析的内容看起来像

吉里什库马尔

但我想要它

Girish(空间)库马尔

如何配置 Apache tika 以便在每个 div 之后包含一个空格?

现在我们已经在我们的一台服务器中安装了Apache Tika Jar并调用它来获取响应。

0 投票
1 回答
1301 浏览

apache-tika - 如何更改 Tika 传递给 Tesseract OCR 的语言参数?

目前我正在使用 tika-app-1.16.jar 对我的 PDF 进行 OCR(与 Tesseract 结合使用时): java -jar tika-app-1.16.jar /tmp/testing/input.pdf

但是,默认情况下它只支持英语。我想找到一种方法来传递不同的语言。

至于文档:

使用 OCR 解析器时,Tika 将使用以下默认设置:

  • 正方体安装路径 = ""
  • 语言词典 = "eng"
  • 页面分割模式=“1”
  • 最小文件大小 = 0
  • 最大文件大小 = 2147483647
  • 超时 = 120

要更改这些设置,您可以修改 tika-parser/src/main/resources/org/apache/tika/parser/ocr 中现有的 TesseractOCRConfig.properties 文件,或者通过创建自己的并将其放置在包 org/ 中来覆盖它类路径上的 apache/tika/parser/ocr。

值得注意的是,在使用其中一个可执行 JAR(tika-app 或 tika-server JAR)时执行此操作将要求您在不使用 -jar 命令的情况下执行它们。例如,tika-app 或 tika-server 分别如下所示:

java -cp /path/to/your/classpath:/path/to/tika-app-XXjar org.apache.tika.cli.TikaCLI

java -cp /path/to/your/classpath:/path/to/tika-server-1.7-SNAPSHOT.jar org.apache.tika.server.TikaServerCli

对于 Tika App 的用户,除了 sytem 属性和环境变量之外,您还可以使用 --config=[tika-config.xml] 选项来选择不同的 Tika Config XML 文件来使用

对于 Tika Server 的用户,除了 sytem 属性和环境变量,您还可以使用 -c [tika-config.xml] 或 --config [tika-config.xml] 选项来选择不同的 Tika Config XML要使用的文件

但是,我无法找到可以更改 Tesseract OCR 使用的语言的 tika-config.xml 的工作示例。有没有可用的例子?

0 投票
3 回答
4218 浏览

python - Python-Tika 为 PDF 返回“无”内容,但适用于 TIFF

我有一个我试图让 Tika 解析的 PDF。PDF 不是 OCR。正方体已安装在我的机器上。

我使用 ImageMagik 将 file.tiff 转换为 file.pdf,所以我正在解析的 tiff 文件是从 PDF 直接转换而来的。

Tika 解析 TIFF 没有问题,但返回 PDF 的“无”内容。是什么赋予了?我正在使用 Tika 1.14.1、tesseract 3.03、leptonica-1.70

这是代码...