问题标签 [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 验证文件的完整性
验证这些文件完整性的步骤是什么?doc,docx,docm,odt,rtf,pdf,odf,odp,xls,xlsx,xlsm,ppt,pptm
或者至少其中一些。通常在上传到内容存储库时。
我猜 inputStream 总是 99,99% 从 MultiPart http 请求中正确读取,否则会抛出异常并采取措施。但是用户可以上传已经损坏的文件 - 我是否使用第三方库来检查?我在 odftoolkit、itextpdf、pdfbox、apache poi 或 tika 中没有看到类似的东西
solr - Solr在搜索关键字后打开文档
我正在尝试索引一些 PDF 文档,然后创建一个 Search UI 。
这个问题有点相关
1)索引PDF文档->我使用tika jar将PDF转换为文本文件,然后使用curl命令对其进行索引。
2) 搜索 UI --> 我正在使用Solritas浏览功能及其内置 UI。
客观的 :
当我在索引文档列表中搜索单词“Lucene”时,当我获得给定查询的结果集时,我希望为每个返回的文档显示一个链接,并单击我应该能够打开的任何文档那个文件。
我目前的想法:
我想我可能必须将第一步从两步更改为直接索引它们的一步。我什至认为 schema.xml 中应该有一个额外的字段来说明这些 PDF 文档的位置。
请指导我一些建议
solr - 使用 Solr 提取 PDF 元数据时出错
我正在使用 Solr 3.3,我正在尝试从 PDF 文件中提取和索引元数据。我正在使用 DataImportHandler 和 TikaEntityProcessor 来添加文档。这是我的 schema.xml 文件中定义的字段:
所以我想元数据信息应该被索引并存储在前缀为“attr_”的字段中。
这是我的数据配置文件的外观。它从数据库中获取源目录路径,将其传递给 FileListEntityProcessor,FileListEntityProcessor 会将目录中找到的每个 pdf 文件传递给 TikaEntityProcessor 以提取和索引内容。
它可以很好地提取描述和创建日期,但它似乎没有提取资源名称,因此当我查询索引时文档没有标题字段。这很奇怪,因为 Creation-date 和 resourceName 都是元数据。此外,没有其他可能的元数据存储在 attr_ 字段下。我遇到一些线程说使用 Tika 0.8 存在已知问题,所以我下载了 Tika 0.9 并将其替换为 0.8。我还下载并替换了 pdfbox、jempbox 和 fontbox 从 1.3 到 1.4。
我只用 Tika 单独测试了其中一个 pdf,以查看文件中存储了哪些元数据。这是我发现的:
如您所见,它确实有一个 resourceName 元数据。我再次尝试建立索引,但得到了相同的结果。创建日期提取和索引很好,但不是资源名称。其他属性也没有在 attr_ 字段下被索引。
怎么了?
apache-tika - tika 为带有大量表格的 pdf 返回不正确的文本行
我正在使用 tika 从包含很多表格的 pdf 文件中提取文本。
它返回一些无效文本,有时它会修剪两个单词之间的空白;例如,它返回“qu inakli fmyathematical idea to the real world”而不是“Link math idea to the real world”。
有没有办法尽量减少这种错误?或者我可以使用另一个库吗?使用 OCR 处理这类 pdf 是否有意义。
solr - Solr 显示 PDF 的页码以及结果
我的问题只是此活动的延续,我想在输入文档中显示搜索词的页码。
所以我用
1) tika-0.9.jar将输出提取为中间文件。
2) 然后我创建另一个 XML,其中提取的输出是输入,并以 Solr 预期的格式写入数据,然后使用post.jar命令发布此 xml。
3) 我使用Solritas Serach UI和Solr 3.2版本 ( http://localhost:8983/solr/browse ) 来查看结果。
我想显示页面编号以及结果。
例子 :
如果我在输入 PDF 中搜索单词测试,到目前为止我所管理的是显示包含此结果的所有文档集,然后单击任何文档,输入 PDF 将打开。我想在每个输入文档中显示这个词说“测试”的页面编号。
请给我一些建议,比如这是否可以通过一些如何在索引中存储页码来完成。
非常欢迎您提出建议。
谢谢并恭祝安康。
java - 通过 Apache Commons Compress 检测压缩类型
是否有一种使用Apache Commons Compress API从文件内容(即,不是文件扩展名)可靠地检测文件压缩类型的快速方法?
使用Apache Tika,可以做到
并且类型变量被检测到的文件内容的 MIME 类型(例如,text/plain、application/zip 等)填充。
理想情况下,出于多种原因,我想避免让 Tika 参与此过程,包括 Tika 似乎将 AR 存档格式误检测为“文本/纯文本”这一事实,这是 Commons Compress 可生产的格式之一。
java - 使用 Apache tika 获取 MimeType 子类型
对于 odt、ppt、pptx、xlsx 等文档,我需要获取 iana.org MediaType 而不是 application/zip 或 application/x-tika-msoffice。
如果您查看 mimetypes.xml,则 mimeType 元素由 iana.org mime-type 和“sub-class-of”组成
如何获取 iana.org mime-type 名称而不是父类型名称?
在测试 mime 类型检测时,我会:
试验结果 :
有没有办法从 mimetypes.xml 获取实际的子类型?而不是 x-tika-msoffice 或 application/zip ?
此外,我从来没有得到 application/x-tika-ooxml,而是 xlsx、docx、pptx 文档的 application/zip。
apache-tika - 使用 tika 自定义 xpath 表达式
我正在尝试通过使用 org/apache/tika/sax/BodyContentHandler.java 中的代码为 tika 构建自定义 xpath contentHandler,以识别复杂的 xpath 表达式(因为我将 tika 用于其他东西)
这个 xpath 有效
但这并不
我想将 tika 的 contentHandler(因为它修复了 html 内容不平衡标签和无效字符)与来自 javax.xml.xpath 的 xpath 评估器集成。这样做的正确方法是什么。一旦 tika 评估并修复了 html 内容,有没有办法获得输入源?
java - Tika 中的 javax.mail.MessagingException
嗨,我正在使用 apache Tika,我根据我的要求对 Tika 进行了一些更改,并且我能够成功构建 Tika。但是当我尝试运行 Tika 时,我得到了以下异常,我添加了 mail.jar 和激活。jar 到类路径。
谁能帮我解决这个问题。
提前致谢...
maven - 如何将 Tika 集成到我的 Lucene 项目中?
我想将 Apache Tika 集成到我的 java 项目中。我需要从不同的文件格式(excel、doc、ppt 等)获取文本。经过阅读后,我了解到构建 tika 的唯一方法是下载 src 文件并使用 Maven 构建它。我在 Tika src (apache-tika-0.9-src) 的根目录中执行“mvn install”,但出现此错误:
我真的很感谢这个错误的任何帮助。谢谢 :-) 罗伊斯