问题标签 [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - solr tika 提取问题
我将 tika 与 dataimporthandler 一起使用。在执行完全导入时,我收到以下错误。
在 solrconfig.xml 我这样写配置参数
我哪里错了?你们能帮帮我吗。我正在寻找这个很长一段时间。
tex - 使用 Tika 从 .tex 文件中提取文本
如何.tex
使用 Apache Tika 从文件中提取文本?示例文件位于http://www.tug.org/texshowcase/EulerGibbsDuhem.tex
Tika 能够正确检测内容类型,application/x-tex
但不会从中提取任何内容。
我试过命令
以及以下代码片段:
java - Apache Tika 编译错误
在 debian 上编译最新版本的 Apache Tika 时出现此错误。任何帮助将不胜感激。
我已经从 tika.apache.org/download.html 下载了最新版本。安装了具有 aptitude 的 maven。我使用debian。并且还安装了 sun-java6-jdk。设置 JAVA_HOME 变量。然后我就去 base tika 文件夹并运行“mvn clean install”。更有趣的是,几天前我可以将它安装在另一台 debian 服务器上而没有任何问题。
java - 如何在 Java 中使用带有 Apache Tika 的 HTML 解析器来提取所有 HTML 标签?
我下载了 tika-core 和 tika-parser 库,但我找不到将 HTML 文档解析为字符串的示例代码。我必须摆脱网页源代码的所有 html 标签。我能做些什么?如何使用 Apache Tika 进行编码?
java - 为了将 html 解析为字符串,我使用了 tika 解析器,但我遇到了一些问题,例如库和 jdeveloper 中的错误
首先,我必须下载 tika-bundle-0.9.jar 但我找不到它。其次,我写了这些
错误
另外,我不得不说我添加了所有必要的库,除了 tika-bundle-0.9.jar 。由于 tika-bundle-0.9.jar 是否会出现一些问题,我如何找到 tika-bundle-0.9.jar?我找不到解决方案。
谢谢
java - 从未知内容类型的文档中提取文本
application/octet-stream
Apache Tika中是否有类型解析器?我想这是一个不可解析的流。
我只需要解析 ODS 文档、MS 文档和 PDF 文件。似乎这就 new Tika( ).parseToString(file);
足够了。但我无法弄清楚当未检测到内容类型时会发生什么 - >application/octet-stream
是默认值。如果我有机会从属于其中一种类型的文档中提取文本,但 contentType 检测器没有检测到它们的类型。
除了将文档返回给用户告诉他它不受支持的格式之外,我还应该尝试什么。
或者结果内容类型真的是application/octet-stream
我们无法阅读的信号吗?还是“你必须想办法解决这个问题”?
java - 如何从内容类型获取文件扩展名?
我正在使用 Apache Tika,并且我有特定内容类型的文件(没有扩展名)需要重命名以具有反映内容类型的扩展名。
知道是否可以使用某些东西而不是根据内容类型名称从头开始编程吗?
parsing - 如何确定文档是否为文章?
假设我有 X 文档,什么算法/库/tika config/nekohtml 过滤器会告诉我哪些是“文章”,哪些不是,对于那些给我文章文本的人(即没有其他周围的文本)。
我所说的一篇文章是指包含至少一个段落的一大堆结构化文本,我认为大多数人类读者都可以过滤掉这些内容。
我想到的最简单的方法是确保 doclength > Y,例如,其中 Y 是 350 个单词。但这不是最可靠的方法,因为例如可能有很长的列表,并且它没有给我文章文本。寻找
标签,不够好。
solr - 如何使用 Solr 3.1 配置 Tika 0.9
你能给我用 Solr 3.1 配置 Tika 0.9 的步骤吗
我在 solrconfig.xml 中使用的这个来配置 请帮助我
谢谢,
solr - Solr 3.1 不索引文件
我已成功使用 Apache tika 0.9 配置 Solr 3.1 我不更改 Schema.xml(默认架构)和 solrconfig.xml 文件
我已将此命令传递给浏览器:
输出 :
但是,每当我使用 : 从http://localhost:8080/solr/admin/搜索 时,它都不会给出任何记录
请尽快帮助我
谢谢达瓦尔,