问题标签 [apache-tika]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
1310 浏览

java - 验证文件的完整性

验证这些文件完整性的步骤是什么?doc,docx,docm,odt,rtf,pdf,odf,odp,xls,xlsx,xlsm,ppt,pptm

或者至少其中一些。通常在上传到内容存储库时。

我猜 inputStream 总是 99,99% 从 MultiPart http 请求中正确读取,否则会抛出异常并采取措施。但是用户可以上传已经损坏的文件 - 我是否使用第三方库来检查?我在 odftoolkit、itextpdf、pdfbox、apache poi 或 tika 中没有看到类似的东西

0 投票
1 回答
1461 浏览

solr - Solr在搜索关键字后打开文档

我正在尝试索引一些 PDF 文档,然后创建一个 Search UI 。

这个问题有点相关

Solr 索引 PDF 文档并将它们发布到远程服务器

1)索引PDF文档->我使用tika jar将PDF转换为文本文件,然后使用curl命令对其进行索引。

2) 搜索 UI --> 我正在使用Solritas浏览功能及其内置 UI。

客观的 :

当我在索引文档列表中搜索单词“Lucene”时,当我获得给定查询的结果集时,我希望为每个返回的文档显示一个链接,并单击我应该能够打开的任何文档那个文件。

我目前的想法:

我想我可能必须将第一步从两步更改为直接索引它们的一步。我什至认为 schema.xml 中应该有一个额外的字段来说明这些 PDF 文档的位置。

请指导我一些建议

0 投票
0 回答
990 浏览

solr - 使用 Solr 提取 PDF 元数据时出错

我正在使用 Solr 3.3,我正在尝试从 PDF 文件中提取和索引元数据。我正在使用 DataImportHandler 和 TikaEntityProcessor 来添加文档。这是我的 schema.xml 文件中定义的字段:

所以我想元数据信息应该被索引并存储在前缀为“attr_”的字段中。

这是我的数据配置文件的外观。它从数据库中获取源目录路径,将其传递给 FileListEntityProcessor,FileListEntityProcessor 会将目录中找到的每个 pdf 文件传递​​给 TikaEntityProcessor 以提取和索引内容。

它可以很好地提取描述和创建日期,但它似乎没有提取资源名称,因此当我查询索引时文档没有标题字段。这很奇怪,因为 Creation-date 和 resourceName 都是元数据。此外,没有其他可能的元数据存储在 attr_ 字段下。我遇到一些线程说使用 Tika 0.8 存在已知问题,所以我下载了 Tika 0.9 并将其替换为 0.8。我还下载并替换了 pdfbox、jempbox 和 fontbox 从 1.3 到 1.4。

我只用 Tika 单独测试了其中一个 pdf,以查看文件中存储了哪些元数据。这是我发现的:

如您所见,它确实有一个 resourceName 元数据。我再次尝试建立索引,但得到了相同的结果。创建日期提取和索引很好,但不是资源名称。其他属性也没有在 attr_ 字段下被索引。

怎么了?

0 投票
2 回答
2215 浏览

apache-tika - tika 为带有大量表格的 pdf 返回不正确的文本行

我正在使用 tika 从包含很多表格的 pdf 文件中提取文本。

它返回一些无效文本,有时它会修剪两个单词之间的空白;例如,它返回“qu inakli fmyathematical idea to the real world”而不是“Link math idea to the real world”。

有没有办法尽量减少这种错误?或者我可以使用另一个库吗?使用 OCR 处理这类 pdf 是否有意义。

0 投票
0 回答
442 浏览

solr - Solr 显示 PDF 的页码以及结果

我的问题只是此活动的延续,我想在输入文档中显示搜索词的页码。

Solr在搜索关键字后打开文档

所以我用

1) tika-0.9.jar将输出提取为中间文件。

2) 然后我创建另一个 XML,其中提取的输出是输入,并以 Solr 预期的格式写入数据,然后使用post.jar命令发布此 xml。

3) 我使用Solritas Serach UISolr 3.2版本 ( http://localhost:8983/solr/browse ) 来查看结果。

我想显示页面编号以及结果。

例子 :

如果我在输入 PDF 中搜索单词测试,到目前为止我所管理的是显示包含此结果的所有文档集,然后单击任何文档,输入 PDF 将打开。我想在每个输入文档中显示这个词说“测试”的页面编号

请给我一些建议,比如这是否可以通过一些如何在索引中存储页码来完成。

非常欢迎您提出建议。

谢谢并恭祝安康。

0 投票
1 回答
2025 浏览

java - 通过 Apache Commons Compress 检测压缩类型

是否有一种使用Apache Commons Compress API从文件内容(即,不是文件扩展名)可靠地检测文件压缩类型的快速方法?

使用Apache Tika,可以做到

并且类型变量被检测到的文件内容的 MIME 类型(例如,text/plain、application/zip 等)填充。

理想情况下,出于多种原因,我想避免让 Tika 参与此过程,包括 Tika 似乎将 AR 存档格式误检测为“文本/纯文本”这一事实,这是 Commons Compress 可生产的格式之一。

0 投票
4 回答
31660 浏览

java - 使用 Apache tika 获取 MimeType 子类型

对于 odt、ppt、pptx、xlsx 等文档,我需要获取 iana.org MediaType 而不是 application/zip 或 application/x-tika-msoffice。

如果您查看 mimetypes.xml,则 mimeType 元素由 iana.org mime-type 和“sub-class-of”组成

如何获取 iana.org mime-type 名称而不是父类型名称?

在测试 mime 类型检测时,我会:

试验结果 :

有没有办法从 mimetypes.xml 获取实际的子类型?而不是 x-tika-msoffice 或 application/zip ?

此外,我从来没有得到 application/x-tika-ooxml,而是 xlsx、docx、pptx 文档的 application/zip。

0 投票
1 回答
834 浏览

apache-tika - 使用 tika 自定义 xpath 表达式

我正在尝试通过使用 org/apache/tika/sax/BodyContentHandler.java 中的代码为 tika 构建自定义 xpath contentHandler,以识别复杂的 xpath 表达式(因为我将 tika 用于其他东西)

这个 xpath 有效

但这并不

我想将 tika 的 contentHandler(因为它修复了 html 内容不平衡标签和无效字符)与来自 javax.xml.xpath 的 xpath 评估器集成。这样做的正确方法是什么。一旦 tika 评估并修复了 html 内容,有没有办法获得输入源?

0 投票
1 回答
673 浏览

java - Tika 中的 javax.mail.MessagingException

嗨,我正在使用 apache Tika,我根据我的要求对 Tika 进行了一些更改,并且我能够成功构建 Tika。但是当我尝试运行 Tika 时,我得到了以下异常,我添加了 mail.jar 和激活。jar 到类路径。

谁能帮我解决这个问题。

提前致谢...

0 投票
1 回答
1150 浏览

maven - 如何将 Tika 集成到我的 Lucene 项目中?

我想将 Apache Tika 集成到我的 java 项目中。我需要从不同的文件格式(excel、doc、ppt 等)获取文本。经过阅读后,我了解到构建 tika 的唯一方法是下载 src 文件并使用 Maven 构建它。我在 Tika src (apache-tika-0.9-src) 的根目录中执行“mvn install”,但出现此错误:

我真的很感谢这个错误的任何帮助。谢谢 :-) 罗伊斯