问题标签 [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-poi - Tika parseToString 调用的问题
我正在使用 POI 从 excel 文件中提取数据。(Excel 表中的第 5 列包含我的文件系统中存在的文件的名称)我循环遍历表的行(使用 POI 提取单元格的内容)并且对于每一行我创建 Tika 实例,并解析在第 5 列带有 Tika “parseToString(file)”,当文件是 Office 文档(excel、ppt、word)时,我收到此错误:
我认为这个问题是 POI 中嵌套使用的结果。一次在 excel 表中,然后再次在 Tika 解析调用中。
听起来合理吗?我该如何处理这个问题?
谢谢 :-) 罗伊斯
java - 使用 Apache Tika 提取元数据并存储到 HashMap
我正在尝试使用 apache tika 提取元数据,然后将其放入 HashMap 中。但我的代码只是键而不是该键的值。例如。它只存储标题(作为键)而不是它的值,在它存储关键字(作为键)但不是它的值的方式相同。
如果我尝试查看md包含什么,它会显示:-
任何帮助将不胜感激..
java - 试图解析二进制数据......在我的情况下它主要是pdf
这段代码有什么问题...我正在尝试解析 pdf 文件并从中提取文本...但是对于某些 pdf 我能够提取文本...对于某些它会引发错误
而且对于某些pdf,我也没有在md变量中获得任何元数据值……但是对于某些人,我明白了……
这是我的代码..!! ByteArray 有问题??
java - 解析二进制文件时出错...(主要是 PDF)
我正在尝试使用 Apache Tika 通过对二进制文件使用 ByteArrayInputStream 来解析 pdf 文件...并且开始对某些 pdf 文件出错,并且对于某些它的解析非常好..早些时候我能够使用 Tika 解析相同的 pdf 文件,但是现在当我尝试使用 ByteArrayInputStream 时,我开始收到错误..我认为 ByteArray 有问题这是我得到的错误..
这是我的代码...
任何建议我做错了什么......!
更新:- 升级到 pdfbox 1.6.0 版本后,我开始收到一些 pdf 的此错误...
对于某些pdf,此错误...
java - 解析二进制文件时出错
在将 PDFBOX 版本升级到 1.6.0 后,我正在尝试使用 Apache Tika 解析 pdf 文件......并且我开始为几个 pdf 文件收到此错误。有什么建议么?
这是我的代码。
apache - 试图覆盖 Apache Tika 0.9 从 PDFBOX 1.4.0 到 PDFBOX 1.6.0 的依赖关系
我试图添加这个低于依赖而不是高于依赖 tika 以覆盖 Tika 对 PDFBOX 1.6.0 的依赖但它不起作用..
Tika Parser 依赖于 PdfBox 1.4.0 版。我想将 Apache Tika 的这种依赖关系更改为 PdfBox 版本 1.6.0。如何在我的 Pom.xml 文件中执行此操作。这是我的 pom.xml 文件。任何建议将不胜感激。
solr - Solr:文件实体处理器和增量导入
我正在使用 solr 3.3,我想将增量导入与文件实体处理器和 tika 实体处理器一起使用。完全导入工作正常,但 delta 导入参数不导入新文档。
谢谢
ruby-on-rails - 从 Rails 应用程序(Word、PDF、Excel 等)搜索附件
我在 Stack Overflow 上的第一篇文章,所以请温柔一点!我即将为客户启动一个新的 Ruby on Rails (3.1) 项目。他们的要求之一是有一个搜索引擎,它将索引大约 2,000 个文档,这些文档是 PDF、Word、Excel 和 HTML 的混合体。
我曾希望使用thinking-sphinx 或Texticle(在https://www.ruby-toolbox.com/categories/rails_search.html上最受欢迎),但据我了解:
- Texticle 需要 PostgreSQL。我在 MySQL 上。
- thinking-sphinx 不在文件系统上索引文件。
- 即使我将附件保存到数据库中,thinking-sphinx 仍然无法工作,因为它需要纯文本(根据http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff)
所以我有两个选择:
- 选择不同的搜索工具
- 尝试将附件的纯文本版本提取到数据库中供thinking-sphinx阅读
您推荐哪种方法?
如果是不同的搜索工具,是哪一个?我的要求非常基本,所以我真的很想要一个很容易设置并且有很多文档、示例和教程的!
如果是提取,您能否推荐用于常见文件类型(如 PDF、Word、Excel 和 HTML)的提取器?
感谢大家。非常感谢您的帮助。
solr - 使用 solr 的提取功能时,如何将数据添加到动态字段?
我正在使用一个名为 solr-php-client (http://code.google.com/p/solr-php-client/) 的 PHP 库与我的 Solr 服务器进行交互。我可以从文档中提取数据、存储它并在其上搜索,但我似乎无法让它允许我将自己的数据添加到索引参数中:
我可以查询“文本”并获得结果:
但我无法查询任何动态字段,即“SS_Stage_ms”:
以下是适用的架构定义:
drupal - 让 ExtractingRequestHandler 在 Solr 中工作
我正在尝试让 Solr 与 Tika 一起工作,这样我就可以在我的 Drupal 网站中索引 Word 和 PDF 文档。
我查看了Wiki 页面和此页面,它们表明在 solrconfig.xml 中添加了 requestHandler。
我这样做了,现在 Solr 抛出了一个异常:
org.apache.solr.common.SolrException:加载类“org.apache.solr.handler.extraction.ExtractingRequestHandler”时出错
我进行了一些搜索,发现其他人遇到了这个问题,但没有简单的解决方法。我在Windows Server 2003上使用Solr 3.4.0。关于如何解决这个问题的任何想法?
附带说明一下,我已经让 Drupal 使用 Solr 进行搜索,这很有效。但是我不能让 Solr 索引 PDF 和 Word 文档。我确信这是大多数网站的共同需求,但我已经为此花费了数天时间,我无法相信它的文档记录很差,而且很难弄清楚。