问题标签 [apache-tika]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
4220 浏览

solr - PDFBox在单词中添加空格

当我尝试从我的 PDF 文件中提取文本时,它似乎会在几个单词之间随机插入空格。

我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar(最新版本):http: //www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian -训练

我已经尝试过其他几个 PDF 文件,它似乎在几个页面上都在做同样的事情。

我执行以下操作:

java -jar pdfbox-app-1.6.0.jar ExtractText -force -console ~/Desktop/ped training pdf.pdf

在下载的文件上,您会在控制台的结果中看到错误插入以下空格:“• 如果孩子们能够安全地步行上学,这可能会减少拥堵。”

“• 为以后的生活养成好习惯。”

“www.sheff ield.gov.uk”

“超前思考!,这是基于”

等等等等

正如你所看到的,上面的几个单词之间有空格,我无法理解。

我在 ubuntu 上运行 Sun 的 JDK 1.6。

我已经在几个不同的 PDF 文件上尝试过这个,并尝试在论坛上搜索解决方案,有类似的错误,但似乎都已解决。

任何帮助或如果其他人有同样的问题,请发表评论。这会导致正确索引内容以进行搜索的大问题。

0 投票
3 回答
603 浏览

java - 带有 java Applet 的嵌套 Jar

首先,我已经解决了这里有关为小程序包含 jar 文件的所有问题。但即便如此,我也有这个“巨大”的问题。

我正在使用 java 和 Apache-Tika 库开发一个应用程序(有 4 个 jar,总大小为 40 mbs)。应用程序需要计算上传文档(doc、docx、odf、pdf 等)中的字数。该小程序在 Netbeans 6.5 或 Eclipse IDE 中运行得非常好,我将它们并排用于开发。但是当我尝试将它部署到浏览器时,出现了问题。

问题

初始页面加载得很好。但是当我给出文档的路径并单击确定(或计数)时,我会收到大量错误消息。这些都是与外部 Apache-Tika 库相关的“ Class Not Found Exceptions ”。我想我已经正确地完成了库的所有包含,否则它不会在小程序查看器中运行。

至于 HTML,我创建了整个 Word-Counter 应用程序的 jar,以及库(4 个 Apache-Tika Jars)和所有其他必要的文件,并相应地将 jar 包含在标签中。我是否需要在 HTML 文件中提及有关嵌套 jar 库的任何内容,嵌套 jar 是否有限制?任何形式的帮助都会受到高度赞赏。谢谢你提前了解了人们。

0 投票
1 回答
155 浏览

java - 自动排序依赖关系

我有一个外部库(比如 A.jar),里面有很多我不想要的东西,还有一些我想要的东西。问题是,从我的源文件(我用那个库编写的,只导入其中的几个),但肯定只包括那些类是行不通的(因为我试过了)。我不知道(一个非常大的)A.jar 中的类文件的内部依赖关系(如果这就是所谓的)。

问题 我使用什么工具,比如说,只将那些需要的类(以及我不知道的依赖项)导入到不同的文件夹(或另一个 Jar 文件)中。Maven 是正确的工具吗?如果是,我该如何使用它来实现我的目标?

该库是 Apache-Tika 库。我在我的代码中导入了以下内容。

我需要分析 doc、docx、pdf、odf、ppt、pptx、xls、xlsx、rtf、txt 文档。所以,我需要知道这个最小的库。

0 投票
1 回答
469 浏览

ruby-on-rails - 如何使用 rsolr 上传文件?

我有一个文件需要在我们的 solr 服务器上建立索引。如何上传文件?我知道如何使用 curl: curl "http://localhost:8983/solr/update/extract?literal.id=doc1&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@tutorial.html"

(来自http://wiki.apache.org/solr/ExtractingRequestHandler)但我不知道如何将其翻译为 rsolr ruby​​gem。

提前致谢。

0 投票
1 回答
1596 浏览

solr - Solr ExtractingRequestHandler pdf文本提取

我对 Solr 的 pdf 文本提取有疑问。Solr 使用 Apache Tika 来提取 PDF 文件的文本,而 tika 使用 PDFBox 来提取文本。当我将我的 PDF 文件发送到 Solr 时,它会成功提取文本,但文本完全混乱。类似的东西

MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht

但是,当我使用以下命令在命令行中直接使用 PDFBox 提取相同的 PDF 文件时,我会得到一个不错的结果。

java -jar pdfbox-app-1.6.0.jar ExtractText -console test.pdf

我不知道 solr 使用哪个 Tika 版本或更好的 PDFBox 版本。我什至在 solr 战争文件中找不到该库... lib 目录中的所有库如下:

如果有人知道解决方案,我会非常高兴。

0 投票
0 回答
653 浏览

solr - 处理 Tika 文档时 SOLR 导入崩溃

我在使用Tika导入Solr时遇到困难,我的文档在索引网页时不断崩溃。

我正在删除 Tika 文档的内容并重新开始导入,但这非常繁琐,而且我显然丢失了这些文档的内容。

这是崩溃日志:

崩溃的数据示例:

0 投票
0 回答
872 浏览

solr - 在 SOLR 中映射字段以进行分面

我正在使用 SOLR 3.4 将富文本文档索引到 SOLR 3.4 中ExtractingRequestHandler,但我无法让它表现得像我想要的那样。

我想将创建日期存储为稍后用于分面搜索的字段,并在中定义了以下内容schema.xml

我这样索引:

我得到了动态字段attr_creation_date(其他规则确保),但我没有得到creation_date. 我也没有成功地尝试过这样使用copyField

另一个尝试是把它放进去solrconfig.xml,但没有运气:

我很确定我在这里遗漏了一些基本的东西。非常感谢任何帮助!

ExtractingRequestHandlerin 的设置solrconfig.xml

我的schema.xml文件(很多默认的东西):https ://gist.github.com/1358002

0 投票
3 回答
2654 浏览

android - 蒂卡与安卓兼容吗?

我已经看到 Apache Tika 的 1.0 版本,它简化了 Java 中的很多元数据提取,我想知道它是否可以在 Android 中使用。

0 投票
3 回答
5376 浏览

solr - 用于在 Solr 中解析 PDF 的 Tika/PDFBox 替代方案(任何高于 1.4 的版本)

似乎 Solr 没有正确解析我的 PDF 文件。我想知道使用 Apache Tika(我相信它在内部使用 PDFBox)来解析 PDF 文件是否还有其他选择?使用它时,我的内容之间似乎出现了随机空格。我已经通过直接通过 PDFBox 运行 PDF(最新版本)来隔离问题,这有同样的问题。

一些 OCR 商业软件(例如 Omnifind)在 PDF 上运行良好,但我们无法以相同的方式将它们与 Solr 集成,购买也不是一种选择。

0 投票
1 回答
438 浏览

alfresco - Alfresco community 4.0 无法识别 DITA 文件 mimetype

所以我安装了 Community 4.0.a 并使用 mimetype-map.xml 扩展了 mimetype 列表,就像我之前在 3.4 中所做的那样

ETC...

但是每次我导入 DITA 文件时,它要么被识别为 XML 文件,要么被识别为 PLAIN TEXT。我已经深入研究了它,看起来这是因为 Apache TIKA 分析了文件的开头以检查它的 mimetype。

如何使用我的自定义 mimetype-map 快捷方式 TIKA(从代码中可以看出,TIKA 首先被触发,如果它找到了一些东西,那么游戏就结束了)?

我是否必须扩展 TIKA 编写自己的解析器?