问题标签 [apache-tika]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1189 问题

0 投票

2 回答

2797 浏览

java - XML 解析器 + 索引数据

我需要用 Lucene 索引一些 xml 文档，但在此之前，我需要解析这些 XML 并在它们的标签中提取一些信息。

XML 如下所示：

我只需要提取标签开始和结束内的时间戳，然后索引 p 标签内的文本。目标是查询被索引的文本并知道每次命中哪个时间戳间隙。

例如，如果我查询单词“Text”，输出应该是这样的：“2 hits, 00:11.76-00:16.04, 00:18.52-00:22.88”

我开始用 Lucene 索引整个 XML。现在我想解析文件，但我不确定解决这个问题的最佳近似值是什么。

欢迎任何帮助或建议:) 谢谢大家！

2011-06-20T12:18:08.550

0 投票

2 回答

2279 浏览

curl - Solr 索引 PDF 文档并将它们发布到远程服务器

嗨，当谈到 Solr 时，我是一个天真的用户。请指导我解决以下障碍。

1) Solr 索引 PDF 文档

尝试过的解决方案

我使用 tika-app 0.9.jar 将输入 PDF 文件中的内容提取到文本文件中。现在我正在尝试编写一个 java 代码来将文档索引到 Solr。

2）将它们发布到远程服务器

我需要将文档或索引发布到中央远程服务器。可以使用 curl 命令。

问候巴拉吉。

curl indexing solr apache-tika pdftotext

2011-06-26T07:56:59.353

0 投票

1 回答

1261 浏览

java - Apache Tika：解析文本文件省略了最后一部分？

我正在尝试使用 Tika 解析纯文本文件，但行为不一致。

更具体地说，我定义了一个简单的处理程序，如下所示：

然后，我解析文件（“ myfile.txt ”）如下：

我希望文件中的所有文本都能在屏幕上打印出来，但最后一小部分不是。更具体地说，characters()回调每个回调一直读取 4,096 个字符，但最终它显然遗漏了这个特定文件的最后 5,083 个字符（长几 MB），因此它甚至超出了错过最后一个回调的范围。

此外，在另一个大约 5,000 个字符长的小文件上进行测试，似乎没有发生回调！

在这两种情况下，MIME 类型都被正确检测为text/plain。

有任何想法吗？

谢谢！

java apache apache-tika

2011-07-07T20:25:16.117

0 投票

4 回答

7035 浏览

java - 使用 TIKA 从 URL 中提取文本

是否可以使用 Tika 从 URL 中提取文本？任何链接将不胜感激。或者 TIKA 只能用于 pdf、word 和任何其他媒体文件？

java apache-tika

2011-07-11T21:30:22.677

0 投票

1 回答

3468 浏览

solr - Solr：数据导入处理程序和 solr 单元

是否可以通过使用 solr 单元的数据导入处理程序来索引丰富的文档（pdf、office）。

我使用 solr 3.2。

谢谢。

solr apache-tika dataimporthandler solr-cell

2011-07-13T08:38:03.910

0 投票

6 回答

44263 浏览

solr - 使用 Solr 索引 PDF

谁能给我指个教程。

我使用 Solr 的主要经验是索引 CSV 文件。但是我找不到任何简单的说明/教程来告诉我索引 pdf 需要做什么。

我见过这个：http ://wiki.apache.org/solr/ExtractingRequestHandler

但这对我来说意义不大。我需要安装 Tika 吗？

我迷路了-请帮忙

solr full-text-search solrj apache-tika solr-cell

2011-07-14T13:57:31.567

0 投票

2 回答

1780 浏览

java - 使用 TIKA 提取 url 的内容（文本）

如何从 url 中提取文本？在我的代码中，它正在提取该网址的源代码......

有什么建议么？？

java apache-tika

2011-07-15T22:42:58.270

0 投票

1 回答

346 浏览

lucene - Solr CEL/Tika 输出的格式是什么？以及如何解决？

我正在使用 Solr 来索引 DOC、DOCX 和 PDF 文件。我已经为文本启用了存储并检查了它。以下是示例 DOC 文件的结果：

，一家移动用户界面 (UI) 软件开发公司，总部位于英国剑桥。整合公司后，高通将他们的界面标记语言及其随附的集成开发环境 (IDE) 重新命名为HYPERLINK "http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1" * \o "UiOne (页面不存在)" uiOne** . 2009 年 3 月，Qualcomm 通知了他们的剑桥工程人员，主要来自从事 HYPERLINK 的部门“http://en.wikipedia.org

该文档包含来自 Wikipdia 的材料。我在http://pastebin.com/8FL9eHJv上捕获了完整的输出

所以 Solr CEl/Tika插入自己的格式，格式的结果显示在搜索输出中。如何解决此问题，以使搜索结果（文本片段）不包含格式？

谷歌搜索告诉我 TIKA 有几种输出格式，那是方法吗？或者是否有一个插件可以在渲染结果之前过滤文本？

相关细节：我的配置接近库存：我的上传命令是一个 python 变体

curl "http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true" -F "myfile=@11qualcomm.doc"

我的 schema.xml http://pastebin.com/VLz2uuDQ

我的 SolrConfig.xml http://pastebin.com/X2J2jj64

lucene solr apache-tika

2011-07-20T17:21:18.483

0 投票

2 回答

1791 浏览

tomcat - 在 Solr 1.4.1 和 Tika 0.4 上为 /solr/update/extract 获取 404

我已经成功安装了 Solr 1.4.1，但我无法让 Tika 0.4（包含在 contrib/extraction 中）正常工作。尝试访问http://localhost:8080/solr/ss/update/extract时出现 404 错误（“ss”是我的核心）。

在部署 Solr 之后，我已将所有 contrib/extraction jar 以及驻留在“dist”目录中的“solr-cell”jar 移到了 Solr 的 WEB-INF 目录中。

我上面使用的方法适用于 Solr 3.3，但 PDF 解析在 Tika 0.8 中被破坏，所以我决定恢复到 Solr 1.4.1 和 Tika 0.4。

如果有帮助，我正在使用 Tomcat 7.0。

tomcat solr apache-tika

2011-07-21T12:55:06.817

0 投票

1 回答

3470 浏览

java - 如何为一些文档类型正确配置 Apache Tika？

我使用 Tika 已经有一段时间了，我知道应该只使用 Tika 外观和代表org/apache/tika/mime/tika-mimetypes.xml文件的默认或自定义 TikaConfig。

我的应用程序不允许任何不同于html,doc,docx,odt,txt,rtf,srt,sub,pdf,odf,odp,xls,ppt,msg

并且默认的 MediaTypes 包括大量其他类型。

我们是否应该修改 tika-mimetypes.xml 以便删除我们不需要的 MimeTypes ？然后据我了解，它将仅为这些 MimeType 创建复合解析器和检测器。

但是当它提供不支持的类型时会发生什么？我应该只捕获 TikaException 或一些 SAXException 并拒绝该文件吗？

另外应该如何手动编辑 tika-mimetypes.xml ？它有 1290 个 MimeTypes，其中大部分是荒谬的第三方 MimeTypes。他们为什么在那里？

java configuration apache-tika

2011-07-23T23:46:17.537

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-tika]

Reference