问题标签 [apache-tika]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1189 问题

0 投票

1 回答

1306 浏览

java - 使用 tika 解析器的 XPath 应用程序

我想清理不规则的网页内容——（可能是 html、pdf 图像等），主要是 html。我为此使用 tika 解析器。但我不知道如何应用我在 html 清洁器中使用的 xpath。

我使用的代码是，

但在这种情况下，我没有得到任何输出。但是对于 url-google.com，我得到了输出。

无论哪种情况，我都不知道如何应用 xpath。

有什么想法请...

尝试将我的自定义 xpath 作为正文内容处理程序的使用方式，

但没有得到给定xpath中的内容..

2012-02-03T13:12:00.937

0 投票

0 回答

132 浏览

java - 使用 Apache Tika 从 microsoft office 格式获取剪贴板的内容

是否可以使用 Apache Tika 从 microsoft office 格式获取剪贴板的内容？我怎样才能实现它？

java apache-tika

2012-02-03T15:10:26.487

0 投票

1 回答

2289 浏览

java - 如何将 org.apache.tika 源代码集成到我的项目中？

我已经下载了 Apache Tika 源文件夹，并且已经安装了 Maven。然后通过命令行（mvn install）我安装了 Tika：

但现在我不知道在我的项目中使用 Tika 的下一步是什么。实际上我不知道如何在我的项目中添加 Tika。

我使用 Tika 源而不是 jar 文件的原因是我想将farsi.ngp文件添加到languageIdentificationTika。我已经farsi.ngp通过 Maven 添加并构建了 Tika，但现在我不知道下一步是什么。我真的必须在我的项目中添加什么？

java maven apache-tika

2012-02-06T15:21:38.733

0 投票

3 回答

1769 浏览

java - Tika - 从文档中检索主要内容

Apache Tika 的 GUI 实用程序提供了一个选项，用于获取给定文档或 URL 的主要内容（格式文本和结构化文本除外）。我只想知道哪个方法负责提取docs/url的主要内容。这样我就可以将该方法合并到我的程序中。还有他们在从 HTML 页面中提取数据时是否使用任何启发式算法。因为有时在提取的内容中，我看不到广告。

更新：我发现BoilerPipeContentHandler对此负责。

java apache-tika

2012-02-07T08:26:16.620

0 投票

2 回答

2124 浏览

apache - 在 nutch 插件中使用 tika

在 nutch 中，我正在实现一个插件，它将获取网页的内容并以特殊方式处理它们。

我的主要问题是我想将网页转换为纯文本以便能够处理，我读到 tika 工具包可以做到这一点

所以，我发现这段代码使用 tika 来解析 url，我把它写在 filter 方法下

metadata.get(Metadata.CONTENT_TYPE) 的结果是 text/html

但是 handler.toString() 是空的！

更新：我也尝试在解析器方法之后使用这一行

我得到了这个结果：状态：未解析（0,0）

apache parsing nutch apache-tika

2012-02-07T09:49:49.533

0 投票

0 回答

2620 浏览

java - Apache Tika: Parsing only metadata without content extraction

I'm using Apache Tika for extracting metadata from documents. I'm mostly interested in setting up a basic dublin core, like Author, Title, Date, etc. I'm not interested in the content of the documents at all. Currently I'm simply doing the usual thing:

Is there some way to tell Tika to not parse the content? I'm hoping that this will speed things up as well as save memory.

java metadata apache-tika

2012-02-08T10:43:34.260

0 投票

2 回答

1475 浏览

pdf - 如何配置 Apache Tika 和 Apache Solr 以索引和搜索 pdf 文件目录？

如何使 Apache Tika 索引 PDF 和文本文件（包括子目录）的目录并将其提交给 Apache Solr，以便我可以使用搜索引擎搜索该目录的内容？

任何建议，在 Windows 或 Linux 上都没关系。我无法让它工作，因为这两个项目的文档主要是为开发人员准备的，这很好，但是，我不能让他们这样做，因为文档含糊不清，对于非 java 来说不够清晰开发商。

非常简单：我如何使用 Apache Lucene 系列项目构建搜索引擎，这些项目可以索引并提供对 /home/material 或 c:/material 或 /cygdrive/c/material 的搜索

非常感谢提前

pdf solr lucene full-text-search apache-tika

2012-02-17T10:22:33.150

0 投票

0 回答

504 浏览

java - 使用正则表达式从字符串中提取内容

我一直在使用 Apache Tika 将 PDF 文件的内容提取到字符串中。但是，我需要在文件中搜索一些模式。

我相信我可能不得不使用正则表达式来搜索字符串。这是正确的方法和使用 Tika 检查 PDF 文件中是否存在特定关键字。

我正在使用以下代码，但它没有与正则表达式匹配。keyword是我希望在我的文本中找到的字符串。

java regex pattern-matching apache-tika

2012-02-17T10:33:56.467

0 投票

1 回答

202 浏览

solr - 在远程 glassfish 上解析（使用 Tika）

我正在使用 Tika 解析器将我的文件索引到 Solr。我创建了自己的解析器（扩展了 XMLParser）。它使用我自己的 mimetype。我创建了一个 jar 文件，里面看起来像这样：

在 custom-mimetypes 中我放了新的 mimetype 的定义，因为我的 xml 文件有一些特殊的标签。

现在问题出在哪里：我一直在本地机器上安装的 glassfish 上使用 Solr 测试解析和索引。它工作得很好。然后我想将它安装在某个远程服务器上。安装了相同版本的 glassfish (3.1.1)。我复制粘贴了 Solr 应用程序，它是包含所有库的主目录（包括 tika jar 和带有我的自定义解析器的 jar）。不幸的是，它不起作用。将文件发布到 Solr 后，我可以在内容类型字段中看到它检测到我的自定义 mime 类型。但是，如果从未运行过 MyParser 类，则没有假设存在的字段。我得到的唯一字段是来自都柏林核心的字段。我检查了（通过简单地添加一些打印行）Tika 只使用 XMLParser。有没有人遇到过类似的问题？如何处理？

solr glassfish apache-tika

2012-02-23T07:29:11.847

0 投票

1 回答

895 浏览

lucene - 如何从 Lucene Index 中提取特定文本？

我想在 lucene 索引中添加 pdf 文件（可能我做了）。现在我想通过 lucene 邻近搜索查询提取特定文本。

邻近搜索查询仅返回文件名。

But i want to extract all texts within the proximity query range.

示例案例：test.pdf:-->“示例文本 A xxxxx B. Lucene 一直都很棒”

邻近查询是：AB ~5

我要提取：xxxx

我能怎么做......？

提前感谢您的帮助和提示............

问候，

森蒂尔·萨拉瓦南

lucene apache-tika

2012-03-23T18:16:38.480

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-tika]

Reference