问题标签 [apache-tika]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2797 浏览

java - XML 解析器 + 索引数据

我需要用 Lucene 索引一些 xml 文档,但在此之前,我需要解析这些 XML 并在它们的标签中提取一些信息。

XML 如下所示:

我只需要提取标签开始和结束内的时间戳,然后索引 p 标签内的文本。目标是查询被索引的文本并知道每次命中哪个时间戳间隙。

例如,如果我查询单词“Text”,输出应该是这样的:“2 hits, 00:11.76-00:16.04, 00:18.52-00:22.88”

我开始用 Lucene 索引整个 XML。现在我想解析文件,但我不确定解决这个问题的最佳近似值是什么。

欢迎任何帮助或建议:) 谢谢大家!

0 投票
2 回答
2279 浏览

curl - Solr 索引 PDF 文档并将它们发布到远程服务器

嗨,当谈到 Solr 时,我是一个天真的用户。请指导我解决以下障碍。

1) Solr 索引 PDF 文档

尝试过的解决方案

我使用 tika-app 0.9.jar 将输入 PDF 文件中的内容提取到文本文件中。现在我正在尝试编写一个 java 代码来将文档索引到 Solr。

2)将它们发布到远程服务器

我需要将文档或索引发布到中央远程服务器。可以使用 curl 命令。

问候巴拉吉。

0 投票
1 回答
1261 浏览

java - Apache Tika:解析文本文件省略了最后一部分?

我正在尝试使用 Tika 解析纯文本文件,但行为不一致。

更具体地说,我定义了一个简单的处理程序,如下所示:

然后,我解析文件(“ myfile.txt ”)如下:

我希望文件中的所有文本都能在屏幕上打印出来,但最后一小部分不是。更具体地说,characters()回调每个回调一直读取 4,096 个字符,但最终它显然遗漏了这个特定文件的最后 5,083 个字符(长几 MB),因此它甚至超出了错过最后一个回调的范围。

此外,在另一个大约 5,000 个字符长的小文件上进行测试,似乎没有发生回调!

在这两种情况下,MIME 类型都被正确检测为text/plain

有任何想法吗?

谢谢!

0 投票
4 回答
7035 浏览

java - 使用 TIKA 从 URL 中提取文本

是否可以使用 Tika 从 URL 中提取文本?任何链接将不胜感激。或者 TIKA 只能用于 pdf、word 和任何其他媒体文件?

0 投票
1 回答
3468 浏览

solr - Solr:数据导入处理程序和 solr 单元

是否可以通过使用 solr 单元的数据导入处理程序来索引丰富的文档(pdf、office)。

我使用 solr 3.2。

谢谢。

0 投票
6 回答
44263 浏览

solr - 使用 Solr 索引 PDF

谁能给我指个教程。

我使用 Solr 的主要经验是索引 CSV 文件。但是我找不到任何简单的说明/教程来告诉我索引 pdf 需要做什么。

我见过这个:http ://wiki.apache.org/solr/ExtractingRequestHandler

但这对我来说意义不大。我需要安装 Tika 吗?

我迷路了-请帮忙

0 投票
2 回答
1780 浏览

java - 使用 TIKA 提取 url 的内容(文本)

如何从 url 中提取文本?在我的代码中,它正在提取该网址的源代码......

有什么建议么??

0 投票
1 回答
346 浏览

lucene - Solr CEL/Tika 输出的格式是什么?以及如何解决?

我正在使用 Solr 来索引 DOC、DOCX 和 PDF 文件。我已经为文本启用了存储并检查了它。以下是示例 DOC 文件的结果:

,一家移动用户界面 (UI) 软件开发公司,总部位于英国剑桥。整合公司后,高通将他们的界面标记语言及其随附的集成开发环境 (IDE) 重新命名为HYPERLINK "http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1" * \o "UiOne (页面不存在)" uiOne** . 2009 年 3 月,Qualcomm 通知了他们的剑桥工程人员,主要来自从事 HYPERLINK 的部门“http://en.wikipedia.org

该文档包含来自 Wikipdia 的材料。我在http://pastebin.com/8FL9eHJv上捕获了完整的输出

所以 Solr CEl/Tika插入自己的格式,格式的结果显示在搜索输出中。如何解决此问题,以使搜索结果(文本片段)不包含格式?

谷歌搜索告诉我 TIKA 有几种输出格式,那是方法吗?或者是否有一个插件可以在渲染结果之前过滤文本?

相关细节:我的配置接近库存:我的上传命令是一个 python 变体

curl "http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true" -F "myfile=@11qualcomm.doc"

我的 schema.xml http://pastebin.com/VLz2uuDQ

我的 SolrConfig.xml http://pastebin.com/X2J2jj64

0 投票
2 回答
1791 浏览

tomcat - 在 Solr 1.4.1 和 Tika 0.4 上为 /solr/update/extract 获取 404

我已经成功安装了 Solr 1.4.1,但我无法让 Tika 0.4(包含在 contrib/extraction 中)正常工作。尝试访问http://localhost:8080/solr/ss/update/extract时出现 404 错误(“ss”是我的核心)。

在部署 Solr 之后,我已将所有 contrib/extraction jar 以及驻留在“dist”目录中的“solr-cell”jar 移到了 Solr 的 WEB-INF 目录中。

我上面使用的方法适用于 Solr 3.3,但 PDF 解析在 Tika 0.8 中被破坏,所以我决定恢复到 Solr 1.4.1 和 Tika 0.4。

如果有帮助,我正在使用 Tomcat 7.0。

0 投票
1 回答
3470 浏览

java - 如何为一些文档类型正确配置 Apache Tika?

我使用 Tika 已经有一段时间了,我知道应该只使用 Tika 外观和代表org/apache/tika/mime/tika-mimetypes.xml文件的默认或自定义 TikaConfig。

我的应用程序不允许任何不同于html,doc,docx,odt,txt,rtf,srt,sub,pdf,odf,odp,xls,ppt,msg

并且默认的 MediaTypes 包括大量其他类型。

我们是否应该修改 tika-mimetypes.xml 以便删除我们不需要的 MimeTypes ?然后据我了解,它将仅为这些 MimeType 创建复合解析器和检测器。

但是当它提供不支持的类型时会发生什么?我应该只捕获 TikaException 或一些 SAXException 并拒绝该文件吗?

另外应该如何手动编辑 tika-mimetypes.xml ?它有 1290 个 MimeTypes,其中大部分是荒谬的第三方 MimeTypes。他们为什么在那里?