“tika-server”的相关标签问题

0 投票

1 回答

2142 浏览

python - Python Tika 无法从 url 解析 pdf

python 用于解析在线 pdf 以备将来使用。我的代码如下。

然而，它显示

AttributeError：“_io.BytesIO”对象没有属性“解码”

我从如何从内联 raw_bytes（不是从文件）中读取 PDF 文件中举了一个例子？

在示例中，它使用 PyPDF2。但我需要使用 Tika，因为 Tika 的结果比 PyPDF2 好。

谢谢你的帮忙

2018-11-25T16:28:42.250

0 投票

1 回答

234 浏览

python-2.7 - 使用 python 2 从 apache Tika 获得 422 响应

有人可以帮我解决上述错误吗？我卸载了 tika 并重新安装了它，但出现错误。我不知道如何解决这个错误。

python-2.7 apache-tika tika-server

2018-12-01T14:08:21.527

0 投票

1 回答

414 浏览

python - python 上的 Apache Tika 从 MacBook Pro 上的 pdf 中提取文本，但不是 Windows 服务器

如上所述，我在 python 中使用 tika 从多个文档中提取文本，但在一个特定的 pdf 上，它在我的开发机器（MacBook Pro）上提取文本，而不是在 Windows Server 2012 上提取文本，它返回“NoneType”。

非常令人困惑，起初我认为是库，但它使用的是来自 apache (1.19.1) 的相同 jar 文件

TIKA_SERVER 是 ' http://localhost:1234 ' pathtofile 是我正在测试的文件失败

Windows 上的错误：错误“NoneType”对象在文件中没有属性“strip”：\testdata\test2.pdf。

有任何想法吗？

python nonetype tika-server

2018-12-05T13:14:25.717

0 投票

0 回答

536 浏览

java - 阿帕奇蒂卡不断死亡

我openEdgar用来解析 SEC 文件数据，它使用 Apache Tika 来解析 HTML、XML 和 LBRL 内容。我在一个有 4G 内存的盒子上运行它，它一直在我身上死去。

我最终以这种方式开始：

java -Dlog4j.configuration=file:log4j.xml -jar tika-server-1.19.1.jar -spawnChild

在日志中，我看到它最终将如何无法 ping 子进程，事情从那里开始走下坡路，JVM 将因内存不足而死去继续：

我还能做些什么来了解这个问题的根本原因并可能解决它吗？

java memory-leaks apache-tika java-memory-leaks tika-server

2018-12-20T20:24:34.377

0 投票

0 回答

140 浏览

java - 以块的形式将数据传递给 Apache Tika 进行解析

有没有办法配置 Apache Tika，以块的形式解析数据？假设数据分为 10 个块。它可以在收到每个块时解析它吗？或者它只能在获得所有 10 个块时解析？

对此有什么想法吗？

java apache-tika tika-server

user10543142

2019-01-10T19:07:14.753

0 投票

1 回答

4256 浏览

java - Python tika 解析器错误 - 无法从 startServer 接收启动确认

我正在尝试在 python 中使用 Tika 来解析 PDF 文件。我正在使用 python 2.7 和 Mac。我无法让它工作。我已经安装了它，然后：

我收到此错误（为简洁而编辑）：

我的问题与这里的 Use tika with python, runtimeerror: unable to start tika server非常相似。但是，最佳答案对我不起作用。我已经安装了 Java 8，但它仍然无法正常工作。我应该怎么办？

java python apache-tika tika-server

2019-04-08T19:05:04.193

0 投票

0 回答

1620 浏览

apache-poi - Tika：引起：java.lang.NoSuchMethodError：org.apache.xmlbeans.XmlOptions.setEntityExpansionLimit(I)Lorg/apache/xmlbeans/XmlOptions

我正在使用 tika-app-1.20.jar 库创建一个 REST 服务。试图解析 .xlsx 文件。当我在本地 jvm 中运行程序时，它正在运行，在创建 WAR 并在服务器中部署时，它也不起作用。

低于错误。

]] ServletException 的根本原因。org.glassfish.jersey.server.ContainerException: java.lang.NoSuchMethodError: org.apache.xmlbeans.XmlOptions.setEntityExpansionLimit(I)Lorg/apache/xmlbeans/XmlOptions; 在 org.glassfish.jersey.servlet.internal.ResponseWriter.rethrow(ResponseWriter.java:278) 在 org.glassfish.jersey.servlet.internal.ResponseWriter.failure(ResponseWriter.java:260) 在 org.glassfish.jersey.server .ServerRuntime$Responder.process(ServerRuntime.java:509) at org.glassfish.jersey.server.ServerRuntime$2.run(ServerRuntime.java:334) at org.glassfish.jersey.internal.Errors$1.call(Errors.java :271) 被截断。请参阅日志文件以获取完整的堆栈跟踪原因：java.lang.NoSuchMethodError: org.apache.xmlbeans.XmlOptions.setEntityExpansionLimit(I)Lorg/apache/xmlbeans/XmlOptions; 在 org.apache.poi.ooxml。POIXMLTypeLoader.(POIXMLTypeLoader.java:43) 在 org.apache.poi.ooxml.POIXMLProperties.(POIXMLProperties.java:82) 在 org.apache.poi.xssf.extractor.XSSFEventBasedExcelExtractor.(XSSFEventBasedExcelExtractor.java:80) 在 org. com.multifonds.parser.OOXMLExtractorFactory.parse(OOXMLExtractorFactory.java:125) 处的 apache.poi.ooxml.extractor.ExtractorFactory.createExtractor(ExtractorFactory.java:215) 被截断。查看日志文件以获取完整的堆栈跟踪 parse(OOXMLExtractorFactory.java:125) 被截断。查看日志文件以获取完整的堆栈跟踪 parse(OOXMLExtractorFactory.java:125) 被截断。查看日志文件以获取完整的堆栈跟踪

有人可以帮我解决这个问题吗？

谢谢，贾亚拉姆

apache-poi jersey-2.0 apache-tika xmlbeans tika-server

2019-04-29T09:59:33.330

0 投票

0 回答

523 浏览

python-3.x - 如何在 python 中使用 tika 包从 ppt 中读取单个幻灯片？

我想比较两个 pptx 文件中的数据并使用 python 显示差异。

我尝试过使用下面的代码，但它在单个文件中提供了所有内容。无法根据幻灯片分离数据。

我可以使用 tika 读取 pptx 的所有内容，但我需要滑动内容来与其他 pptx 文件进行比较。

预期结果是存储每张幻灯片一个文本文件。实际结果是我将所有幻灯片数据放入一个文本文件中。

python-3.x compare apache-tika python-pptx tika-server

2019-05-23T01:17:48.960

0 投票

0 回答

250 浏览

python - 尝试在 python 中使用 tika 解析一些文本时出现 504 错误

几周前，我让 tika-python 在 Windows 10 中正常工作。今天我不得不重新创建我的 virtualenv 并将 tika 升级到 1.19 版，但是当我尝试像往常一样使用它时，我一直遇到 502 和 504 错误.

我尝试在 ubuntu18.04 和以前的 tika 版本中使用它，但没有任何改变。

任何人都可以帮忙吗？（我不是以英语为母语的人，如果我的英语不是很好，请见谅）

python tika-server

2019-05-25T19:02:49.990

0 投票

0 回答

65 浏览

python - 无法写入/读取从 PDF 中提取的字符串文本

我已经从 PDF 中提取了整个文本并保存在变量“CCR”中。我可以打印，它可以很好地显示文本。但是当我尝试读取它的行或保存在 txt 文件中时，它只会显示/保存空白/什么都没有。有任何想法吗？

我打印变量时的示例（工作正常）：

“第 9 章 - 数字化转型”

我使用 tika 服务器来提取文本。

当我尝试写入文件时，它给了我这个错误：

python python-3.x apache-tika converters tika-server

2019-05-29T18:47:23.043

问题标签 [tika-server]

Reference