问题标签 [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - XML 解析器 + 索引数据
我需要用 Lucene 索引一些 xml 文档,但在此之前,我需要解析这些 XML 并在它们的标签中提取一些信息。
XML 如下所示:
我只需要提取标签开始和结束内的时间戳,然后索引 p 标签内的文本。目标是查询被索引的文本并知道每次命中哪个时间戳间隙。
例如,如果我查询单词“Text”,输出应该是这样的:“2 hits, 00:11.76-00:16.04, 00:18.52-00:22.88”
我开始用 Lucene 索引整个 XML。现在我想解析文件,但我不确定解决这个问题的最佳近似值是什么。
欢迎任何帮助或建议:) 谢谢大家!
curl - Solr 索引 PDF 文档并将它们发布到远程服务器
嗨,当谈到 Solr 时,我是一个天真的用户。请指导我解决以下障碍。
1) Solr 索引 PDF 文档
尝试过的解决方案
我使用 tika-app 0.9.jar 将输入 PDF 文件中的内容提取到文本文件中。现在我正在尝试编写一个 java 代码来将文档索引到 Solr。
2)将它们发布到远程服务器
我需要将文档或索引发布到中央远程服务器。可以使用 curl 命令。
问候巴拉吉。
java - Apache Tika:解析文本文件省略了最后一部分?
我正在尝试使用 Tika 解析纯文本文件,但行为不一致。
更具体地说,我定义了一个简单的处理程序,如下所示:
然后,我解析文件(“ myfile.txt ”)如下:
我希望文件中的所有文本都能在屏幕上打印出来,但最后一小部分不是。更具体地说,characters()回调每个回调一直读取 4,096 个字符,但最终它显然遗漏了这个特定文件的最后 5,083 个字符(长几 MB),因此它甚至超出了错过最后一个回调的范围。
此外,在另一个大约 5,000 个字符长的小文件上进行测试,似乎没有发生回调!
在这两种情况下,MIME 类型都被正确检测为text/plain。
有任何想法吗?
谢谢!
java - 使用 TIKA 从 URL 中提取文本
是否可以使用 Tika 从 URL 中提取文本?任何链接将不胜感激。或者 TIKA 只能用于 pdf、word 和任何其他媒体文件?
solr - Solr:数据导入处理程序和 solr 单元
是否可以通过使用 solr 单元的数据导入处理程序来索引丰富的文档(pdf、office)。
我使用 solr 3.2。
谢谢。
solr - 使用 Solr 索引 PDF
谁能给我指个教程。
我使用 Solr 的主要经验是索引 CSV 文件。但是我找不到任何简单的说明/教程来告诉我索引 pdf 需要做什么。
我见过这个:http ://wiki.apache.org/solr/ExtractingRequestHandler
但这对我来说意义不大。我需要安装 Tika 吗?
我迷路了-请帮忙
java - 使用 TIKA 提取 url 的内容(文本)
如何从 url 中提取文本?在我的代码中,它正在提取该网址的源代码......
有什么建议么??
lucene - Solr CEL/Tika 输出的格式是什么?以及如何解决?
我正在使用 Solr 来索引 DOC、DOCX 和 PDF 文件。我已经为文本启用了存储并检查了它。以下是示例 DOC 文件的结果:
,一家移动用户界面 (UI) 软件开发公司,总部位于英国剑桥。整合公司后,高通将他们的界面标记语言及其随附的集成开发环境 (IDE) 重新命名为HYPERLINK "http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1" * \o "UiOne (页面不存在)" uiOne** . 2009 年 3 月,Qualcomm 通知了他们的剑桥工程人员,主要来自从事 HYPERLINK 的部门“http://en.wikipedia.org
该文档包含来自 Wikipdia 的材料。我在http://pastebin.com/8FL9eHJv上捕获了完整的输出
所以 Solr CEl/Tika插入自己的格式,格式的结果显示在搜索输出中。如何解决此问题,以使搜索结果(文本片段)不包含格式?
谷歌搜索告诉我 TIKA 有几种输出格式,那是方法吗?或者是否有一个插件可以在渲染结果之前过滤文本?
相关细节:我的配置接近库存:我的上传命令是一个 python 变体
curl "http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true" -F "myfile=@11qualcomm.doc"
我的 schema.xml http://pastebin.com/VLz2uuDQ
我的 SolrConfig.xml http://pastebin.com/X2J2jj64
tomcat - 在 Solr 1.4.1 和 Tika 0.4 上为 /solr/update/extract 获取 404
我已经成功安装了 Solr 1.4.1,但我无法让 Tika 0.4(包含在 contrib/extraction 中)正常工作。尝试访问http://localhost:8080/solr/ss/update/extract时出现 404 错误(“ss”是我的核心)。
在部署 Solr 之后,我已将所有 contrib/extraction jar 以及驻留在“dist”目录中的“solr-cell”jar 移到了 Solr 的 WEB-INF 目录中。
我上面使用的方法适用于 Solr 3.3,但 PDF 解析在 Tika 0.8 中被破坏,所以我决定恢复到 Solr 1.4.1 和 Tika 0.4。
如果有帮助,我正在使用 Tomcat 7.0。
java - 如何为一些文档类型正确配置 Apache Tika?
我使用 Tika 已经有一段时间了,我知道应该只使用 Tika 外观和代表org/apache/tika/mime/tika-mimetypes.xml
文件的默认或自定义 TikaConfig。
我的应用程序不允许任何不同于html,doc,docx,odt,txt,rtf,srt,sub,pdf,odf,odp,xls,ppt,msg
并且默认的 MediaTypes 包括大量其他类型。
我们是否应该修改 tika-mimetypes.xml 以便删除我们不需要的 MimeTypes ?然后据我了解,它将仅为这些 MimeType 创建复合解析器和检测器。
但是当它提供不支持的类型时会发生什么?我应该只捕获 TikaException 或一些 SAXException 并拒绝该文件吗?
另外应该如何手动编辑 tika-mimetypes.xml ?它有 1290 个 MimeTypes,其中大部分是荒谬的第三方 MimeTypes。他们为什么在那里?