问题标签 [apache-tika]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1384 浏览

solr - solr tika 提取问题

我将 tika 与 dataimporthandler 一起使用。在执行完全导入时,我收到以下错误。

在 solrconfig.xml 我这样写配置参数

我哪里错了?你们能帮帮我吗。我正在寻找这个很长一段时间。

0 投票
1 回答
956 浏览

tex - 使用 Tika 从 .tex 文件中提取文本

如何.tex使用 Apache Tika 从文件中提取文本?示例文件位于http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika 能够正确检测内容类型,application/x-tex但不会从中提取任何内容。

我试过命令

以及以下代码片段:

0 投票
1 回答
1781 浏览

java - Apache Tika 编译错误

在 debian 上编译最新版本的 Apache Tika 时出现此错误。任何帮助将不胜感激。

我已经从 tika.apache.org/download.html 下载了最新版本。安装了具有 aptitude 的 maven。我使用debian。并且还安装了 sun-java6-jdk。设置 JAVA_HOME 变量。然后我就去 base tika 文件夹并运行“mvn clean install”。更有趣的是,几天前我可以将它安装在另一台 debian 服务器上而没有任何问题。

0 投票
2 回答
19177 浏览

java - 如何在 Java 中使用带有 Apache Tika 的 HTML 解析器来提取所有 HTML 标签?

我下载了 tika-core 和 tika-parser 库,但我找不到将 HTML 文档解析为字符串的示例代码。我必须摆脱网页源代码的所有 html 标签。我能做些什么?如何使用 Apache Tika 进行编码?

0 投票
2 回答
1047 浏览

java - 为了将 html 解析为字符串,我使用了 tika 解析器,但我遇到了一些问题,例如库和 jdeveloper 中的错误

首先,我必须下载 tika-bundle-0.9.jar 但我找不到它。其次,我写了这些

错误

另外,我不得不说我添加了所有必要的库,除了 tika-bundle-0.9.jar 。由于 tika-bundle-0.9.jar 是否会出现一些问题,我如何找到 tika-bundle-0.9.jar?我找不到解决方案。

谢谢

0 投票
1 回答
3319 浏览

java - 从未知内容类型的文档中提取文本

application/octet-streamApache Tika中是否有类型解析器?我想这是一个不可解析的流。

我只需要解析 ODS 文档、MS 文档和 PDF 文件。似乎这就 new Tika( ).parseToString(file); 足够了。但我无法弄清楚当未检测到内容类型时会发生什么 - >application/octet-stream是默认值。如果我有机会从属于其中一种类型的文档中提取文本,但 contentType 检测器没有检测到它们的类型。

除了将文档返回给用户告诉他它不受支持的格式之外,我还应该尝试什么。

或者结果内容类型真的是application/octet-stream我们无法阅读的信号吗?还是“你必须想办法解决这个问题”?

0 投票
4 回答
37363 浏览

java - 如何从内容类型获取文件扩展名?

我正在使用 Apache Tika,并且我有特定内容类型的文件(没有扩展名)需要重命名以具有反映内容类型的扩展名。

知道是否可以使用某些东西而不是根据内容类型名称从头开始编程吗?

0 投票
2 回答
81 浏览

parsing - 如何确定文档是否为文章?

假设我有 X 文档,什么算法/库/tika config/nekohtml 过滤器会告诉我哪些是“文章”,哪些不是,对于那些给我文章文本的人(即没有其他周围的文本)。

我所说的一篇文章是指包含至少一个段落的一大堆结构化文本,我认为大多数人类读者都可以过滤掉这些内容。

我想到的最简单的方法是确保 doclength > Y,例如,其中 Y 是 350 个单词。但这不是最可靠的方法,因为例如可能有很长的列表,并且它没有给我文章文本。寻找

标签,不够好。

0 投票
1 回答
1943 浏览

solr - 如何使用 Solr 3.1 配置 Tika 0.9

你能给我用 Solr 3.1 配置 Tika 0.9 的步骤吗

我在 solrconfig.xml 中使用的这个来配置 请帮助我

谢谢,

0 投票
1 回答
164 浏览

solr - Solr 3.1 不索引文件

我已成功使用 Apache tika 0.9 配置 Solr 3.1 我不更改 Schema.xml(默认架构)和 solrconfig.xml 文件

我已将此命令传递给浏览器:

输出 :

但是,每当我使用 : 从http://localhost:8080/solr/admin/搜索 时,它都不会给出任何记录

请尽快帮助我

谢谢达瓦尔,