“apache-tika”的相关标签问题

0 投票

2 回答

4220 浏览

solr - PDFBox在单词中添加空格

当我尝试从我的 PDF 文件中提取文本时，它似乎会在几个单词之间随机插入空格。

我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar（最新版本）：http: //www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian -训练

我已经尝试过其他几个 PDF 文件，它似乎在几个页面上都在做同样的事情。

我执行以下操作：

java -jar pdfbox-app-1.6.0.jar ExtractText -force -console ~/Desktop/ped training pdf.pdf

在下载的文件上，您会在控制台的结果中看到错误插入以下空格：“• 如果孩子们能够安全地步行上学，这可能会减少拥堵。”

“• 为以后的生活养成好习惯。”

“www.sheff ield.gov.uk”

“超前思考！，这是基于”

等等等等

正如你所看到的，上面的几个单词之间有空格，我无法理解。

我在 ubuntu 上运行 Sun 的 JDK 1.6。

我已经在几个不同的 PDF 文件上尝试过这个，并尝试在论坛上搜索解决方案，有类似的错误，但似乎都已解决。

任何帮助或如果其他人有同样的问题，请发表评论。这会导致正确索引内容以进行搜索的大问题。

2011-10-31T14:06:46.350

0 投票

3 回答

603 浏览

java - 带有 java Applet 的嵌套 Jar

首先，我已经解决了这里有关为小程序包含 jar 文件的所有问题。但即便如此，我也有这个“巨大”的问题。

我正在使用 java 和 Apache-Tika 库开发一个应用程序（有 4 个 jar，总大小为 40 mbs）。应用程序需要计算上传文档（doc、docx、odf、pdf 等）中的字数。该小程序在 Netbeans 6.5 或 Eclipse IDE 中运行得非常好，我将它们并排用于开发。但是当我尝试将它部署到浏览器时，出现了问题。

问题

初始页面加载得很好。但是当我给出文档的路径并单击确定（或计数）时，我会收到大量错误消息。这些都是与外部 Apache-Tika 库相关的“ Class Not Found Exceptions ”。我想我已经正确地完成了库的所有包含，否则它不会在小程序查看器中运行。

至于 HTML，我创建了整个 Word-Counter 应用程序的 jar，以及库（4 个 Apache-Tika Jars）和所有其他必要的文件，并相应地将 jar 包含在标签中。我是否需要在 HTML 文件中提及有关嵌套 jar 库的任何内容，嵌套 jar 是否有限制？任何形式的帮助都会受到高度赞赏。谢谢你提前了解了人们。

java applet apache-tika

2011-11-02T05:14:49.837

0 投票

1 回答

155 浏览

java - 自动排序依赖关系

我有一个外部库（比如 A.jar），里面有很多我不想要的东西，还有一些我想要的东西。问题是，从我的源文件（我用那个库编写的，只导入其中的几个），但肯定只包括那些类是行不通的（因为我试过了）。我不知道（一个非常大的）A.jar 中的类文件的内部依赖关系（如果这就是所谓的）。

问题我使用什么工具，比如说，只将那些需要的类（以及我不知道的依赖项）导入到不同的文件夹（或另一个 Jar 文件）中。Maven 是正确的工具吗？如果是，我该如何使用它来实现我的目标？

该库是 Apache-Tika 库。我在我的代码中导入了以下内容。

我需要分析 doc、docx、pdf、odf、ppt、pptx、xls、xlsx、rtf、txt 文档。所以，我需要知道这个最小的库。

java maven jar apache-tika

2011-11-03T08:19:07.930

0 投票

1 回答

469 浏览

ruby-on-rails - 如何使用 rsolr 上传文件？

我有一个文件需要在我们的 solr 服务器上建立索引。如何上传文件？我知道如何使用 curl： curl "http://localhost:8983/solr/update/extract?literal.id=doc1&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@tutorial.html"

（来自http://wiki.apache.org/solr/ExtractingRequestHandler）但我不知道如何将其翻译为 rsolr rubygem。

提前致谢。

ruby-on-rails ruby apache-tika solr-cell rsolr

2011-11-07T14:15:40.037

0 投票

1 回答

1596 浏览

solr - Solr ExtractingRequestHandler pdf文本提取

我对 Solr 的 pdf 文本提取有疑问。Solr 使用 Apache Tika 来提取 PDF 文件的文本，而 tika 使用 PDFBox 来提取文本。当我将我的 PDF 文件发送到 Solr 时，它会成功提取文本，但文本完全混乱。类似的东西

MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht

但是，当我使用以下命令在命令行中直接使用 PDFBox 提取相同的 PDF 文件时，我会得到一个不错的结果。

java -jar pdfbox-app-1.6.0.jar ExtractText -console test.pdf

我不知道 solr 使用哪个 Tika 版本或更好的 PDFBox 版本。我什至在 solr 战争文件中找不到该库... lib 目录中的所有库如下：

如果有人知道解决方案，我会非常高兴。

solr pdfbox apache-tika solr-cell

2011-11-07T20:28:06.243

0 投票

0 回答

653 浏览

solr - 处理 Tika 文档时 SOLR 导入崩溃

我在使用Tika导入Solr时遇到困难，我的文档在索引网页时不断崩溃。

我正在删除 Tika 文档的内容并重新开始导入，但这非常繁琐，而且我显然丢失了这些文档的内容。

这是崩溃日志：

崩溃的数据示例：

solr apache-tika

2011-11-10T16:02:08.240

0 投票

0 回答

872 浏览

solr - 在 SOLR 中映射字段以进行分面

我正在使用 SOLR 3.4 将富文本文档索引到 SOLR 3.4 中ExtractingRequestHandler，但我无法让它表现得像我想要的那样。

我想将创建日期存储为稍后用于分面搜索的字段，并在中定义了以下内容schema.xml：

我这样索引：

我得到了动态字段attr_creation_date（其他规则确保），但我没有得到creation_date. 我也没有成功地尝试过这样使用copyField：

另一个尝试是把它放进去solrconfig.xml，但没有运气：

我很确定我在这里遗漏了一些基本的东西。非常感谢任何帮助！

ExtractingRequestHandlerin 的设置solrconfig.xml：

我的schema.xml文件（很多默认的东西）：https ://gist.github.com/1358002

solr lucene full-text-search apache-tika solr-cell

2011-11-11T12:07:57.697

0 投票

3 回答

2654 浏览

android - 蒂卡与安卓兼容吗？

我已经看到 Apache Tika 的 1.0 版本，它简化了 Java 中的很多元数据提取，我想知道它是否可以在 Android 中使用。

android apache apache-tika

2011-11-15T11:38:47.997

0 投票

3 回答

5376 浏览

solr - 用于在 Solr 中解析 PDF 的 Tika/PDFBox 替代方案（任何高于 1.4 的版本）

似乎 Solr 没有正确解析我的 PDF 文件。我想知道使用 Apache Tika（我相信它在内部使用 PDFBox）来解析 PDF 文件是否还有其他选择？使用它时，我的内容之间似乎出现了随机空格。我已经通过直接通过 PDFBox 运行 PDF（最新版本）来隔离问题，这有同样的问题。

一些 OCR 商业软件（例如 Omnifind）在 PDF 上运行良好，但我们无法以相同的方式将它们与 Solr 集成，购买也不是一种选择。

solr full-text-indexing pdfbox apache-tika document-conversion

2011-11-16T09:14:59.400

0 投票

1 回答

438 浏览

alfresco - Alfresco community 4.0 无法识别 DITA 文件 mimetype

所以我安装了 Community 4.0.a 并使用 mimetype-map.xml 扩展了 mimetype 列表，就像我之前在 3.4 中所做的那样

ETC...

但是每次我导入 DITA 文件时，它要么被识别为 XML 文件，要么被识别为 PLAIN TEXT。我已经深入研究了它，看起来这是因为 Apache TIKA 分析了文件的开头以检查它的 mimetype。

如何使用我的自定义 mimetype-map 快捷方式 TIKA（从代码中可以看出，TIKA 首先被触发，如果它找到了一些东西，那么游戏就结束了）？

我是否必须扩展 TIKA 编写自己的解析器？

alfresco apache-tika

2011-11-17T16:00:41.313

问题标签 [apache-tika]

Reference