问题标签 [tika-server]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2142 浏览

python - Python Tika 无法从 url 解析 pdf

python 用于解析在线 pdf 以备将来使用。我的代码如下。

然而,它显示

AttributeError:“_io.BytesIO”对象没有属性“解码”

我从如何从内联 raw_bytes(不是从文件)中读取 PDF 文件中举了一个例子?

在示例中,它使用 PyPDF2。但我需要使用 Tika,因为 Tika 的结果比 PyPDF2 好。

谢谢你的帮忙

0 投票
1 回答
234 浏览

python-2.7 - 使用 python 2 从 apache Tika 获得 422 响应

有人可以帮我解决上述错误吗?我卸载了 tika 并重新安装了它,但出现错误。我不知道如何解决这个错误。

0 投票
1 回答
414 浏览

python - python 上的 Apache Tika 从 MacBook Pro 上的 pdf 中提取文本,但不是 Windows 服务器

如上所述,我在 python 中使用 tika 从多个文档中提取文本,但在一个特定的 pdf 上,它在我的开发机器(MacBook Pro)上提取文本,而不是在 Windows Server 2012 上提取文本,它返回“NoneType”。

非常令人困惑,起初我认为是库,但它使用的是来自 apache (1.19.1) 的相同 jar 文件

TIKA_SERVER 是 ' http://localhost:1234 ' pathtofile 是我正在测试的文件失败

Windows 上的错误:错误“NoneType”对象在文件中没有属性“strip”:\testdata\test2.pdf。

有任何想法吗?

0 投票
0 回答
536 浏览

java - 阿帕奇蒂卡不断死亡

openEdgar用来解析 SEC 文件数据,它使用 Apache Tika 来解析 HTML、XML 和 LBRL 内容。我在一个有 4G 内存的盒子上运行它,它一直在我身上死去。

我最终以这种方式开始:

java -Dlog4j.configuration=file:log4j.xml -jar tika-server-1.19.1.jar -spawnChild

在日志中,我看到它最终将如何无法 ping 子进程,事情从那里开始走下坡路,JVM 将因内存不足而死去继续:

我还能做些什么来了解这个问题的根本原因并可能解决它吗?

0 投票
0 回答
140 浏览

java - 以块的形式将数据传递给 Apache Tika 进行解析

有没有办法配置 Apache Tika,以块的形式解析数据?假设数据分为 10 个块。它可以在收到每个块时解析它吗?或者它只能在获得所有 10 个块时解析?

对此有什么想法吗?

0 投票
1 回答
4256 浏览

java - Python tika 解析器错误 - 无法从 startServer 接收启动确认

我正在尝试在 python 中使用 Tika 来解析 PDF 文件。我正在使用 python 2.7 和 Mac。我无法让它工作。我已经安装了它,然后:

我收到此错误(为简洁而编辑):

我的问题与这里的 Use tika with python, runtimeerror: unable to start tika server非常相似。但是,最佳答案对我不起作用。我已经安装了 Java 8,但它仍然无法正常工作。我应该怎么办?

0 投票
0 回答
1620 浏览

apache-poi - Tika:引起:java.lang.NoSuchMethodError:org.apache.xmlbeans.XmlOptions.setEntityExpansionLimit(I)Lorg/apache/xmlbeans/XmlOptions

我正在使用 tika-app-1.20.jar 库创建一个 REST 服务。试图解析 .xlsx 文件。当我在本地 jvm 中运行程序时,它正在运行,在创建 WAR 并在服务器中部署时,它也不起作用。

低于错误。

]] ServletException 的根本原因。org.glassfish.jersey.server.ContainerException: java.lang.NoSuchMethodError: org.apache.xmlbeans.XmlOptions.setEntityExpansionLimit(I)Lorg/apache/xmlbeans/XmlOptions; 在 org.glassfish.jersey.servlet.internal.ResponseWriter.rethrow(ResponseWriter.java:278) 在 org.glassfish.jersey.servlet.internal.ResponseWriter.failure(ResponseWriter.java:260) 在 org.glassfish.jersey.server .ServerRuntime$Responder.process(ServerRuntime.java:509) at org.glassfish.jersey.server.ServerRuntime$2.run(ServerRuntime.java:334) at org.glassfish.jersey.internal.Errors$1.call(Errors.java :271) 被截断。请参阅日志文件以获取完整的堆栈跟踪原因:java.lang.NoSuchMethodError: org.apache.xmlbeans.XmlOptions.setEntityExpansionLimit(I)Lorg/apache/xmlbeans/XmlOptions; 在 org.apache.poi.ooxml。POIXMLTypeLoader.(POIXMLTypeLoader.java:43) 在 org.apache.poi.ooxml.POIXMLProperties.(POIXMLProperties.java:82) 在 org.apache.poi.xssf.extractor.XSSFEventBasedExcelExtractor.(XSSFEventBasedExcelExtractor.java:80) 在 org. com.multifonds.parser.OOXMLExtractorFactory.parse(OOXMLExtractorFactory.java:125) 处的 apache.poi.ooxml.extractor.ExtractorFactory.createExtractor(ExtractorFactory.java:215) 被截断。查看日志文件以获取完整的堆栈跟踪 parse(OOXMLExtractorFactory.java:125) 被截断。查看日志文件以获取完整的堆栈跟踪 parse(OOXMLExtractorFactory.java:125) 被截断。查看日志文件以获取完整的堆栈跟踪

有人可以帮我解决这个问题吗?

谢谢,贾亚拉姆

0 投票
0 回答
523 浏览

python-3.x - 如何在 python 中使用 tika 包从 ppt 中读取单个幻灯片?

我想比较两个 pptx 文件中的数据并使用 python 显示差异。

我尝试过使用下面的代码,但它在单个文件中提供了所有内容。无法根据幻灯片分离数据。

我可以使用 tika 读取 pptx 的所有内容,但我需要滑动内容来与其他 pptx 文件进行比较。

预期结果是存储每张幻灯片一个文本文件。实际结果是我将所有幻灯片数据放入一个文本文件中。

0 投票
0 回答
250 浏览

python - 尝试在 python 中使用 tika 解析一些文本时出现 504 错误

几周前,我让 tika-python 在 Windows 10 中正常工作。今天我不得不重新创建我的 virtualenv 并将 tika 升级到 1.19 版,但是当我尝试像往常一样使用它时,我一直遇到 502 和 504 错误.

我尝试在 ubuntu18.04 和以前的 tika 版本中使用它,但没有任何改变。

任何人都可以帮忙吗?(我不是以英语为母语的人,如果我的英语不是很好,请见谅)

0 投票
0 回答
65 浏览

python - 无法写入/读取从 PDF 中提取的字符串文本

我已经从 PDF 中提取了整个文本并保存在变量“CCR”中。我可以打印,它可以很好地显示文本。但是当我尝试读取它的行或保存在 txt 文件中时,它只会显示/保存空白/什么都没有。有任何想法吗?

我打印变量时的示例(工作正常):

“第 9 章 - 数字化转型”

我使用 tika 服务器来提取文本。

当我尝试写入文件时,它给了我这个错误: