问题标签 [apache-tika]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1306 浏览

java - 使用 tika 解析器的 XPath 应用程序

我想清理不规则的网页内容——(可能是 html、pdf 图像等),主要是 html。我为此使用 tika 解析器。但我不知道如何应用我在 html 清洁器中使用的 xpath。

我使用的代码是,

但在这种情况下,我没有得到任何输出。但是对于 url-google.com,我得到了输出。

无论哪种情况,我都不知道如何应用 xpath。

有什么想法请...

尝试将我的自定义 xpath 作为正文内容处理程序的使用方式,

但没有得到给定xpath中的内容..

0 投票
0 回答
132 浏览

java - 使用 Apache Tika 从 microsoft office 格式获取剪贴板的内容

是否可以使用 Apache Tika 从 microsoft office 格式获取剪贴板的内容?我怎样才能实现它?

0 投票
1 回答
2289 浏览

java - 如何将 org.apache.tika 源代码集成到我的项目中?

我已经下载了 Apache Tika 源文件夹,并且已经安装了 Maven。然后通过命令行(mvn install)我安装了 Tika:

但现在我不知道在我的项目中使用 Tika 的下一步是什么。实际上我不知道如何在我的项目中添加 Tika。

我使用 Tika 源而不是 jar 文件的原因是我想将farsi.ngp文件添加到languageIdentificationTika。我已经farsi.ngp通过 Maven 添加并构建了 Tika,但现在我不知道下一步是什么。我真的必须在我的项目中添加什么?

0 投票
3 回答
1769 浏览

java - Tika - 从文档中检索主要内容

Apache Tika 的 GUI 实用程序提供了一个选项,用于获取给定文档或 URL 的主要内容(格式文本和结构化文本除外)。我只想知道哪个方法负责提取docs/url的主要内容。这样我就可以将该方法合并到我的程序中。还有他们在从 HTML 页面中提取数据时是否使用任何启发式算法。因为有时在提取的内容中,我看不到广告。

更新:我发现BoilerPipeContentHandler对此负责。

0 投票
2 回答
2124 浏览

apache - 在 nutch 插件中使用 tika

在 nutch 中,我正在实现一个插件,它将获取网页的内容并以特殊方式处理它们。

我的主要问题是我想将网页转换为纯文本以便能够处理,我读到 tika 工具包可以做到这一点

所以,我发现这段代码使用 tika 来解析 url,我把它写在 filter 方法下

metadata.get(Metadata.CONTENT_TYPE) 的结果是 text/html

但是 handler.toString() 是空的!

更新:我也尝试在解析器方法之后使用这一行

我得到了这个结果:状态:未解析(0,0)

0 投票
0 回答
2620 浏览

java - Apache Tika: Parsing only metadata without content extraction

I'm using Apache Tika for extracting metadata from documents. I'm mostly interested in setting up a basic dublin core, like Author, Title, Date, etc. I'm not interested in the content of the documents at all. Currently I'm simply doing the usual thing:

Is there some way to tell Tika to not parse the content? I'm hoping that this will speed things up as well as save memory.

0 投票
2 回答
1475 浏览

pdf - 如何配置 Apache Tika 和 Apache Solr 以索引和搜索 pdf 文件目录?

如何使 Apache Tika 索引 PDF 和文本文件(包括子目录)的目录并将其提交给 Apache Solr,以便我可以使用搜索引擎搜索该目录的内容?

任何建议,在 Windows 或 Linux 上都没关系。我无法让它工作,因为这两个项目的文档主要是为开发人员准备的,这很好,但是,我不能让他们这样做,因为文档含糊不清,对于非 java 来说不够清晰开发商。

非常简单:我如何使用 Apache Lucene 系列项目构建搜索引擎,这些项目可以索引并提供对 /home/material 或 c:/material 或 /cygdrive/c/material 的搜索

非常感谢提前

0 投票
0 回答
504 浏览

java - 使用正则表达式从字符串中提取内容

我一直在使用 Apache Tika 将 PDF 文件的内容提取到字符串中。但是,我需要在文件中搜索一些模式。

我相信我可能不得不使用正则表达式来搜索字符串。这是正确的方法和使用 Tika 检查 PDF 文件中是否存在特定关键字。

我正在使用以下代码,但它没有与正则表达式匹配。keyword是我希望在我的文本中找到的字符串。

0 投票
1 回答
202 浏览

solr - 在远程 glassfish 上解析(使用 Tika)

我正在使用 Tika 解析器将我的文件索引到 Solr。我创建了自己的解析器(扩展了 XMLParser)。它使用我自己的 mimetype。我创建了一个 jar 文件,里面看起来像这样:

在 custom-mimetypes 中我放了新的 mimetype 的定义,因为我的 xml 文件有一些特殊的标签。

现在问题出在哪里:我一直在本地机器上安装的 glassfish 上使用 Solr 测试解析和索引。它工作得很好。然后我想将它安装在某个远程服务器上。安装了相同版本的 glassfish (3.1.1)。我复制粘贴了 Solr 应用程序,它是包含所有库的主目录(包括 tika jar 和带有我的自定义解析器的 jar)。不幸的是,它不起作用。将文件发布到 Solr 后,我可以在内容类型字段中看到它检测到我的自定义 mime 类型。但是,如果从未运行过 MyParser 类,则没有假设存在的字段。我得到的唯一字段是来自都柏林核心的字段。我检查了(通过简单地添加一些打印行)Tika 只使用 XMLParser。有没有人遇到过类似的问题?如何处理?

0 投票
1 回答
895 浏览

lucene - 如何从 Lucene Index 中提取特定文本?

我想在 lucene 索引中添加 pdf 文件(可能我做了)。现在我想通过 lucene 邻近搜索查询提取特定文本。

邻近搜索查询仅返回文件名。

But i want to extract all texts within the proximity query range.

示例案例:test.pdf:-->“示例文本 A xxxxx B. Lucene 一直都很棒”

邻近查询是:AB ~5

我要提取:xxxx

我能怎么做......?

提前感谢您的帮助和提示............

问候,

森蒂尔·萨拉瓦南