问题标签 [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 Solr CELL 的 ExtractingRequestHandler 从包格式中索引/提取文件
您可以使用具有任何压缩文件格式(zip、tar、gz 等)的 ExtractingRequestHandler 和 Tika 来提取内容以进行索引吗?
我正在使用 curl 向 solr 发送 archived.tar 文件。curl " http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true " -H 'Content-type:application/octet-stream' --data-binary "@/home /archived.tar" 当我查询文档时得到的结果是存档中的文件名被索引为“body_texts”,但这些文件的内容没有被提取或包含。这不是我所期望的行为。参考: http ://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example 。当我使用相同的 curl 命令在存档中发送 1 个实际文档时,提取的内容然后存储在“body_texts”字段中。
我已经添加了所有提取依赖项,如 http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell中的 mat 所示,并且能够成功地从 MS Word、PDF、HTML 文档中提取数据。
我正在使用以下库版本。Solr 1.40,Solr Cell 1.4.1,带有 Tika Core 0.4
鉴于我读过的所有内容,这个版本的 Tika 应该支持从压缩文件中的所有文件中提取数据。任何帮助或建议将不胜感激。
pdf - 使用 Solr 用页码索引 PDF
我正在使用 ExtractingRequestHandler 使用 Solr 为 PDF 编制索引。我想在文档中显示页码以及命中,例如“在第 2、3 和 5 页foo
找到术语”。bar.pdf
是否可以像这样在查询结果中包含页码?
solr - Solr Tika,带样式的文本
我看过这个链接: http : //www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika 我得到的是纯文本,没有来自 Tika 的任何样式供 Solr 搜索. 是否可以从 Solr 获得具有其样式的文本?换句话说,我们需要在 solr 搜索后以原始样式显示文本。
solr - 使用 /solr/update 进行索引时如何提升 SOLR 文档
为了索引我的网站,我有一个 Ruby 脚本,它会生成一个 shell 脚本,将我的文档根目录中的每个文件上传到 Solr。shell 脚本有很多行,如下所示:
...并以:
这会将我的文档根目录中的所有文档上传到 Solr。我使用tika 和 ExtractingRequestHandler将各种格式的文档(主要是 PDF 和 HTML)上传到 Solr。
在生成这个 shell 脚本的脚本中,我想根据它们的 id 字段(a/k/a url)是否匹配某些正则表达式来提升某些文档。
假设这些是提升规则(伪代码):
将索引时间提升添加到我的 http 请求的最简单方法是什么?
我试过:
和:
搜索结果的顺序都没有区别。我想要的是提升结果在搜索结果中排在首位,无论用户搜索什么(当然前提是文档包含他们的查询)。
我知道,如果我以 XML 格式发布,我可以为整个文档或特定字段指定提升值。但是如果我这样做,则不清楚如何将文件指定为文档内容。实际上,tika 页面提供了一个部分示例:
但同样不清楚在哪里/如何指定我的提升。我试过:
和
两者都没有改变搜索结果。
Is there a way to update just the boost attribute of a document (not a specific field) without altering the document contents? If so, I could accomplish my goal in two steps: 1) Upload/index document as I have been doing 2) Specify boost for certain documents
apache - 使用 Apache Solr 检索提取的文本
我是 Apache Solr 的新手,我想用它来索引 pdf 文件。到目前为止,我设法让它启动并运行,现在我可以搜索添加的 pdf 文件。
但是,我需要能够从结果中检索搜索到的文本。
我在默认的 solrconfig.xml 中找到了一个 xml 片段,这正是:
根据我从这里得到的信息(http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika),我想我必须在 schema.xml 中添加一个新字段(例如“内容”)已存储=“真”和索引=“真”。但是,我不确定如何准确地做到这一点?
任何帮助表示赞赏,谢谢
java - 用Java解析文档结构
我们需要使用 Java 从给定的文本文档中获取树状结构。使用的文件类型应该是通用和开放的(rtf、odt、...)。目前我们使用 Apache Tika 从多个文档中解析纯文本。
我们应该使用什么文件类型和 API 才能最可靠地解析正确的结构?如果 Tika 可以做到这一点,我很乐意看到任何演示。
例如,我们应该从给定的文档中获取这种数据:
主标题是论文的标题。论文有两个主要标题,标题 1 和标题 2,它们都有一个子标题。我们还应该获取每个标题下的内容(段落文本)。
任何帮助表示赞赏。
java - 使用java查找mime类型的wma文件
我正在使用 apache tika 来检测音频和视频文件的 mime 类型。由于某种原因,tika 将 wma 文件(Microsoft 拥有的 Windows Media Audio 格式)的 mime 类型报告为 application/octet-stream。您知道在 java 中查找 mime 类型文件的更好方法吗?或者我可以使用 tika 本身来查询这些信息吗?
java - Apache Tika 和文档元数据
我正在使用 Apache Tika 对各种文档(ODS、MS office、pdf)进行简单处理。我必须至少得到:
这并不容易。我的策略是对 6 种类型的文档使用模板方法模式,我首先找到文档的类型,并在此基础上单独处理它。
我知道 apache tika 应该消除对这个的需要,但是文档格式有很大不同,对吧?
例如
我尝试对 ODS、MS office、pdf 文档执行此操作,但元数据差异很大。MSOffice 界面列出了 MS 文档的元数据键和一些Dublic Core元数据列表。但是应该如何实现这样的应用程序呢?
可以请有经验的人分享他的经验吗?谢谢
java - 如何利用以下 ECM 技术 - 比较
我有一个理论问题。我有大量各种格式的文档(ODS、MS office、pdf、html),我想实现 ECM 系统,它不是文档管理系统,而是保存文档元数据和数据的系统(各种语言)以统一的方式 (xhtml) 进入文件系统和数据库(仅元数据)并进行数据处理(索引、搜索)。
您将使用哪些技术以及您将如何进行?这些是我的选择:
仅使用 Apache Tika - 解析这些文档并将元数据和数据提取为 xhtml 格式,然后使用 Lucene 或 Solr 进行索引和全文(最大的缺点是数据库持久性 - 元数据变化很大)
仅将 Apache Solr 与 Tika解析器一起使用——我没有这方面的经验。它是否支持像 Apache Nutch 这样的数据库集成?
然后是 Apache UIMA 项目 - 很难找出幕后发生的事情
使用一些已经在使用 Apache Tika (alfresco, apache jackrabbit) 的 CMS - 但我对它们没有太多经验。无论如何,我确信他们已经解决了 Apache Tika 本身无法解决的问题,例如(doc 与 docx 或不同的元数据类型)。
从 Apache Tika 获得 xhtml 格式后,我还可以使用 eXist db 等原生 XML 数据库,但我不确定这是一个好的选择,因为这些文档的结构相当扁平。XML 数据库用于更分层的文档持久性。
java - 使用 Apache Jackrabbit 提取元数据
我稍微使用了 Alfresco,Apache Tika 之上有一个薄抽象层,用于从文档中提取元数据。
我决定只使用 Jackrabbit,因为我不需要如此强大的解决方案。但除了 jackrabbit-text-extractors 模块之外,我看不到对文档元数据(都柏林核心属性)的任何其他支持。
更多关于 jackrabbit-text-extractors maven artifact version 2.0-SNAPSHOT 似乎不在 SVN 主干中。
有人可以告诉我选择什么方法吗?