问题标签 [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 tika 解析器的 XPath 应用程序
我想清理不规则的网页内容——(可能是 html、pdf 图像等),主要是 html。我为此使用 tika 解析器。但我不知道如何应用我在 html 清洁器中使用的 xpath。
我使用的代码是,
但在这种情况下,我没有得到任何输出。但是对于 url-google.com,我得到了输出。
无论哪种情况,我都不知道如何应用 xpath。
有什么想法请...
尝试将我的自定义 xpath 作为正文内容处理程序的使用方式,
但没有得到给定xpath中的内容..
java - 使用 Apache Tika 从 microsoft office 格式获取剪贴板的内容
是否可以使用 Apache Tika 从 microsoft office 格式获取剪贴板的内容?我怎样才能实现它?
java - 如何将 org.apache.tika 源代码集成到我的项目中?
我已经下载了 Apache Tika 源文件夹,并且已经安装了 Maven。然后通过命令行(mvn install)我安装了 Tika:
但现在我不知道在我的项目中使用 Tika 的下一步是什么。实际上我不知道如何在我的项目中添加 Tika。
我使用 Tika 源而不是 jar 文件的原因是我想将farsi.ngp
文件添加到languageIdentification
Tika。我已经farsi.ngp
通过 Maven 添加并构建了 Tika,但现在我不知道下一步是什么。我真的必须在我的项目中添加什么?
java - Tika - 从文档中检索主要内容
Apache Tika 的 GUI 实用程序提供了一个选项,用于获取给定文档或 URL 的主要内容(格式文本和结构化文本除外)。我只想知道哪个方法负责提取docs/url的主要内容。这样我就可以将该方法合并到我的程序中。还有他们在从 HTML 页面中提取数据时是否使用任何启发式算法。因为有时在提取的内容中,我看不到广告。
更新:我发现BoilerPipeContentHandler对此负责。
apache - 在 nutch 插件中使用 tika
在 nutch 中,我正在实现一个插件,它将获取网页的内容并以特殊方式处理它们。
我的主要问题是我想将网页转换为纯文本以便能够处理,我读到 tika 工具包可以做到这一点
所以,我发现这段代码使用 tika 来解析 url,我把它写在 filter 方法下
metadata.get(Metadata.CONTENT_TYPE) 的结果是 text/html
但是 handler.toString() 是空的!
更新:我也尝试在解析器方法之后使用这一行
我得到了这个结果:状态:未解析(0,0)
java - Apache Tika: Parsing only metadata without content extraction
I'm using Apache Tika for extracting metadata from documents. I'm mostly interested in setting up a basic dublin core, like Author, Title, Date, etc. I'm not interested in the content of the documents at all. Currently I'm simply doing the usual thing:
Is there some way to tell Tika to not parse the content? I'm hoping that this will speed things up as well as save memory.
pdf - 如何配置 Apache Tika 和 Apache Solr 以索引和搜索 pdf 文件目录?
如何使 Apache Tika 索引 PDF 和文本文件(包括子目录)的目录并将其提交给 Apache Solr,以便我可以使用搜索引擎搜索该目录的内容?
任何建议,在 Windows 或 Linux 上都没关系。我无法让它工作,因为这两个项目的文档主要是为开发人员准备的,这很好,但是,我不能让他们这样做,因为文档含糊不清,对于非 java 来说不够清晰开发商。
非常简单:我如何使用 Apache Lucene 系列项目构建搜索引擎,这些项目可以索引并提供对 /home/material 或 c:/material 或 /cygdrive/c/material 的搜索
非常感谢提前
java - 使用正则表达式从字符串中提取内容
我一直在使用 Apache Tika 将 PDF 文件的内容提取到字符串中。但是,我需要在文件中搜索一些模式。
我相信我可能不得不使用正则表达式来搜索字符串。这是正确的方法和使用 Tika 检查 PDF 文件中是否存在特定关键字。
我正在使用以下代码,但它没有与正则表达式匹配。keyword
是我希望在我的文本中找到的字符串。
solr - 在远程 glassfish 上解析(使用 Tika)
我正在使用 Tika 解析器将我的文件索引到 Solr。我创建了自己的解析器(扩展了 XMLParser)。它使用我自己的 mimetype。我创建了一个 jar 文件,里面看起来像这样:
在 custom-mimetypes 中我放了新的 mimetype 的定义,因为我的 xml 文件有一些特殊的标签。
现在问题出在哪里:我一直在本地机器上安装的 glassfish 上使用 Solr 测试解析和索引。它工作得很好。然后我想将它安装在某个远程服务器上。安装了相同版本的 glassfish (3.1.1)。我复制粘贴了 Solr 应用程序,它是包含所有库的主目录(包括 tika jar 和带有我的自定义解析器的 jar)。不幸的是,它不起作用。将文件发布到 Solr 后,我可以在内容类型字段中看到它检测到我的自定义 mime 类型。但是,如果从未运行过 MyParser 类,则没有假设存在的字段。我得到的唯一字段是来自都柏林核心的字段。我检查了(通过简单地添加一些打印行)Tika 只使用 XMLParser。有没有人遇到过类似的问题?如何处理?
lucene - 如何从 Lucene Index 中提取特定文本?
我想在 lucene 索引中添加 pdf 文件(可能我做了)。现在我想通过 lucene 邻近搜索查询提取特定文本。
邻近搜索查询仅返回文件名。
But i want to extract all texts within the proximity query range.
示例案例:test.pdf:-->“示例文本 A xxxxx B. Lucene 一直都很棒”
邻近查询是:AB ~5
我要提取:xxxx
我能怎么做......?
提前感谢您的帮助和提示............
问候,
森蒂尔·萨拉瓦南