“apache-tika”的相关标签问题

0 投票

4 回答

1310 浏览

java - 验证文件的完整性

验证这些文件完整性的步骤是什么？doc,docx,docm,odt,rtf,pdf,odf,odp,xls,xlsx,xlsm,ppt,pptm

或者至少其中一些。通常在上传到内容存储库时。

我猜 inputStream 总是 99,99% 从 MultiPart http 请求中正确读取，否则会抛出异常并采取措施。但是用户可以上传已经损坏的文件 - 我是否使用第三方库来检查？我在 odftoolkit、itextpdf、pdfbox、apache poi 或 tika 中没有看到类似的东西

2011-07-25T00:06:49.367

0 投票

1 回答

1461 浏览

solr - Solr在搜索关键字后打开文档

我正在尝试索引一些 PDF 文档，然后创建一个 Search UI 。

这个问题有点相关

Solr 索引 PDF 文档并将它们发布到远程服务器

1）索引PDF文档->我使用tika jar将PDF转换为文本文件，然后使用curl命令对其进行索引。

2) 搜索 UI --> 我正在使用Solritas浏览功能及其内置 UI。

客观的：

当我在索引文档列表中搜索单词“Lucene”时，当我获得给定查询的结果集时，我希望为每个返回的文档显示一个链接，并单击我应该能够打开的任何文档那个文件。

我目前的想法：

我想我可能必须将第一步从两步更改为直接索引它们的一步。我什至认为 schema.xml 中应该有一个额外的字段来说明这些 PDF 文档的位置。

请指导我一些建议

solr full-text-search apache-tika solr-cell

2011-07-25T18:54:16.117

0 投票

0 回答

990 浏览

solr - 使用 Solr 提取 PDF 元数据时出错

我正在使用 Solr 3.3，我正在尝试从 PDF 文件中提取和索引元数据。我正在使用 DataImportHandler 和 TikaEntityProcessor 来添加文档。这是我的 schema.xml 文件中定义的字段：

所以我想元数据信息应该被索引并存储在前缀为“attr_”的字段中。

这是我的数据配置文件的外观。它从数据库中获取源目录路径，将其传递给 FileListEntityProcessor，FileListEntityProcessor 会将目录中找到的每个 pdf 文件传递给 TikaEntityProcessor 以提取和索引内容。

它可以很好地提取描述和创建日期，但它似乎没有提取资源名称，因此当我查询索引时文档没有标题字段。这很奇怪，因为 Creation-date 和 resourceName 都是元数据。此外，没有其他可能的元数据存储在 attr_ 字段下。我遇到一些线程说使用 Tika 0.8 存在已知问题，所以我下载了 Tika 0.9 并将其替换为 0.8。我还下载并替换了 pdfbox、jempbox 和 fontbox 从 1.3 到 1.4。

我只用 Tika 单独测试了其中一个 pdf，以查看文件中存储了哪些元数据。这是我发现的：

如您所见，它确实有一个 resourceName 元数据。我再次尝试建立索引，但得到了相同的结果。创建日期提取和索引很好，但不是资源名称。其他属性也没有在 attr_ 字段下被索引。

怎么了？

solr lucene apache-tika

2011-08-01T04:16:40.333

0 投票

2 回答

2215 浏览

apache-tika - tika 为带有大量表格的 pdf 返回不正确的文本行

我正在使用 tika 从包含很多表格的 pdf 文件中提取文本。

它返回一些无效文本，有时它会修剪两个单词之间的空白；例如，它返回“qu inakli fmyathematical idea to the real world”而不是“Link math idea to the real world”。

有没有办法尽量减少这种错误？或者我可以使用另一个库吗？使用 OCR 处理这类 pdf 是否有意义。

apache-tika

2011-08-15T16:14:37.040

0 投票

0 回答

442 浏览

solr - Solr 显示 PDF 的页码以及结果

我的问题只是此活动的延续，我想在输入文档中显示搜索词的页码。

Solr在搜索关键字后打开文档

所以我用

1) tika-0.9.jar将输出提取为中间文件。

2) 然后我创建另一个 XML，其中提取的输出是输入，并以 Solr 预期的格式写入数据，然后使用post.jar命令发布此 xml。

3) 我使用Solritas Serach UI和Solr 3.2版本 ( http://localhost:8983/solr/browse ) 来查看结果。

我想显示页面编号以及结果。

例子：

如果我在输入 PDF 中搜索单词测试，到目前为止我所管理的是显示包含此结果的所有文档集，然后单击任何文档，输入 PDF 将打开。我想在每个输入文档中显示这个词说“测试”的页面编号。

请给我一些建议，比如这是否可以通过一些如何在索引中存储页码来完成。

非常欢迎您提出建议。

谢谢并恭祝安康。

solr apache-tika

2011-08-18T15:42:32.637

0 投票

1 回答

2025 浏览

java - 通过 Apache Commons Compress 检测压缩类型

是否有一种使用Apache Commons Compress API从文件内容（即，不是文件扩展名）可靠地检测文件压缩类型的快速方法？

使用Apache Tika，可以做到

并且类型变量被检测到的文件内容的 MIME 类型（例如，text/plain、application/zip 等）填充。

理想情况下，出于多种原因，我想避免让 Tika 参与此过程，包括 Tika 似乎将 AR 存档格式误检测为“文本/纯文本”这一事实，这是 Commons Compress 可生产的格式之一。

java compression apache-commons apache-tika

2011-08-20T13:57:41.307

0 投票

4 回答

31660 浏览

java - 使用 Apache tika 获取 MimeType 子类型

对于 odt、ppt、pptx、xlsx 等文档，我需要获取 iana.org MediaType 而不是 application/zip 或 application/x-tika-msoffice。

如果您查看 mimetypes.xml，则 mimeType 元素由 iana.org mime-type 和“sub-class-of”组成

如何获取 iana.org mime-type 名称而不是父类型名称？

在测试 mime 类型检测时，我会：

试验结果：

有没有办法从 mimetypes.xml 获取实际的子类型？而不是 x-tika-msoffice 或 application/zip ？

此外，我从来没有得到 application/x-tika-ooxml，而是 xlsx、docx、pptx 文档的 application/zip。

java mime-types detection apache-tika

2011-08-21T10:14:41.720

0 投票

1 回答

834 浏览

apache-tika - 使用 tika 自定义 xpath 表达式

我正在尝试通过使用 org/apache/tika/sax/BodyContentHandler.java 中的代码为 tika 构建自定义 xpath contentHandler，以识别复杂的 xpath 表达式（因为我将 tika 用于其他东西）

这个 xpath 有效

但这并不

我想将 tika 的 contentHandler（因为它修复了 html 内容不平衡标签和无效字符）与来自 javax.xml.xpath 的 xpath 评估器集成。这样做的正确方法是什么。一旦 tika 评估并修复了 html 内容，有没有办法获得输入源？

apache-tika

2011-08-23T20:15:36.817

0 投票

1 回答

673 浏览

java - Tika 中的 javax.mail.MessagingException

嗨，我正在使用 apache Tika，我根据我的要求对 Tika 进行了一些更改，并且我能够成功构建 Tika。但是当我尝试运行 Tika 时，我得到了以下异常，我添加了 mail.jar 和激活。jar 到类路径。

谁能帮我解决这个问题。

提前致谢...

java apache-tika

2011-08-25T07:59:26.660

0 投票

1 回答

1150 浏览

maven - 如何将 Tika 集成到我的 Lucene 项目中？

我想将 Apache Tika 集成到我的 java 项目中。我需要从不同的文件格式（excel、doc、ppt 等）获取文本。经过阅读后，我了解到构建 tika 的唯一方法是下载 src 文件并使用 Maven 构建它。我在 Tika src (apache-tika-0.9-src) 的根目录中执行“mvn install”，但出现此错误：

我真的很感谢这个错误的任何帮助。谢谢 :-) 罗伊斯

maven lucene apache-tika

2011-09-06T08:55:10.210

问题标签 [apache-tika]

Reference