问题标签 [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 Apache Tika 解析 HTML 问题
我正在抓取一个网页,并在抓取它之后从该网页中提取所有链接,然后我尝试使用下面的代码使用 Apache Tika 和 BoilerPipe 解析所有 url,因此对于某些 url,它解析得很好,但对于某些我得到错误像这样。它在 HTMLParser.java 上显示了一些错误:第 102 行。这是 HTMLParser.java 中的第 102 行
我也提供了 HTMLParse 代码。
这是我的 HTMLParser.java 文件-
任何建议将不胜感激。
java - 使用 Apache Tika 解析 XML 文件
我正在抓取一个网页,并在抓取它之后从该网页中提取所有链接,然后我尝试使用下面的代码使用 Apache Tika 和 BoilerPipe 解析所有 url,因此对于某些 url,它解析得很好,但我得到的 XML 很少以下错误。我不确定这个错误是什么意思。我的代码有问题还是 XML 文件有问题?这是 HTML Parser.java 中下面的第 100 行
我遇到的错误-
HTMLParser.java 代码-
java - 为什么使用 ForkParser 时没有填充我的 Tika 元数据对象?
ForkParser
是在 Tika 0.9 版中引入的新 Tika 解析器,位于org.apache.tika.fork
. 新的解析器派生出一个新的 jvm 进程来分析传递的文件流。我认为这可能是限制我愿意为 Tika 的元数据提取过程投入多少内存的好方法。但是,该Metadata
对象没有像使用AutoDetectParser
. 测试表明该BodyContentHandler
对象不是null
。
为什么Metadata
对象没有填充任何东西(手动添加的除外RESOURCE_NAME_KEY
)?
solr - 导入富文档时是否有 SOLR 的最佳实践 schema.xml?
我正在与 SOLR 合作一个项目,我们在该项目中导入一堆(约 40k 项)丰富的文档,主要是 MS Word、Powerpoint、Excel 和 PDF。
使用 SOLR 时是否有最佳实践schema.xml
和/或solrconfig.xml
在 SOLR 中使用ExtractingRequestHandler
?
我一直在对默认模式进行调整,以尝试让构面在日期修改时间上起作用,但即使没有,我认为当 Tika 的默认输出足够时,很可能存在一个很好的例子来说明这些文件应该如何。
如果没有最佳实践之类的东西schema.xml
和/或solrconfig.xml
我也对好的例子感兴趣,最好来自现有的开源项目,甚至是好的博客文章。
欢迎任何指点!
java - 当自动检测解析器似乎工作正常时,为什么 Tika 的 ForkParser 会抛出 NoClassDefFoundError?
我正在使用 apache Tika 1.0。使用 ForkParser,每当我解析 pdf 文件时,我都会收到以下 NoClassDefFoundException:
检查 jar 显示 MemoryURLStreamHandler$Record 存在于 tika-core jar 文件中。当我使用 AutoDetectParser 而不是 ForkParser 时,我能够毫无问题地从文件中提取元数据,但需要能够限制 Tika 内存使用,因此需要使用 ForkParser。如何让 pdf 解析与 Tika 的 ForkParser 一起工作?
这是一段代码,直到我进行解析:
编辑#1
我使用“-f”选项测试了 Tika 1.0 和 Tika 0.10 CLI 应用程序,并且在使用 Mac OS-X 的 SoyLatte java 6 端口时收到了 IOException(Broken Pipe)。该端口仅在我的开发机器上运行,因此我在带有“-f”开关的 linux 测试机器上运行 CLI 应用程序(1.0 和 0.10),如下所示
java -jar tika-app-1.0.jar -f /path/to/my/file.pdf
我不再收到异常,但我也没有得到任何输出。我觉得这很奇怪,但认为它可能仍然有效,只是没有产生任何输出(我猜永远是个乐观主义者)。
我在我的 Mac OS-X 终端中取消设置所有环境变量,并尝试使用 OS-X 内置的 java 6 运行 Tika CLI。我得到了与在 linux 测试机器上相同的结果,打印了一些换行符,但是没有其他的。我尝试使用 jpg 文件而不是 pdf 文件,并且 tika 应用程序打印出带有广告的元数据的 xhtml 文档!接下来我尝试了一个 docx 文件,但像 pdf 一样,不打印任何内容。
编辑#2
我编写了一个小的测试 java 程序,并将它放在我们应用程序的上下文之外,以便它在一个新的环境中运行。
我是这样编译的
javac -cp /path/to/tika-app-1.0.jar ForkParserTest.java
然后像这样跑
java -cp /path/to/tika-app-1.0.jar:${PWD} ForkParserTest /path/to/file.pdf
并用jpeg对其进行了测试。它的执行方式与 Tika CLI 应用程序完全相同,它为 jpg 打印 XHTML 文档,但不为 pdf 或 docx 文件打印任何内容。
如果有人知道如何解决这个问题,请告诉我!此外,如果您在 pdf 文件或 docx 文件上运行此测试并实际打印结果,也请告诉我您是如何做到的。
谢谢!
我对在 stackoverflow 上发帖也很陌生,如果这完全是 tl;dr,感谢您的反馈,请给我一些建议,以使其更简洁。
solr - NoClassDefFoundError MimeTypeException 与 PDF 提取
我在尝试对 PDF 文件使用更新/提取时遇到异常
我的设置是:- Ubuntu Server 11.10 Tomcat 6 Solr 3.5.0.2011.11.22.15.54.38
我可以浏览到 solr/admin OK
我已将所有 contrib/extract 和 apache-solr-cell3.5.0.jar 库放入 tomcat 文件夹 webapps/solr/WEB-INF/lib
我正在使用以下方法调用提取物:-
错误是
将不胜感激任何指针 - 这个错误似乎出现在其他地方的唯一一次是 Nutch 和缓存的结果。
我尝试在查询字符串和 *.doc 文件中发送 mimetype,但遇到了同样的错误。
solr - ExtractingRequestHandler - 你如何发布多值文字字段?
我正在尝试发布一个文字多值字段以及 PDF 提取。似乎只有一个字段值被添加到索引中。这需要以不同的方式传递吗?
当前发送等价物(通过 POST 值):
solr - Tika Solr 元数据映射忽略文档标题
我有以下 solr 的配置文件:
这是我的架构:
我想设置title
自己。但是 Tika 一直在设置它自己的title
(这就是我multiValued="true"
临时设置的原因),我觉得这很奇怪,因为我必须手动映射像stream_size
and之类的东西content_type
。
有什么办法可以解决这个问题?
我希望 Tika 覆盖title
我分配的内容,如下所示:
我有 3 个文档,其中一个,Tika 没有提取 a title
,在这种情况下,我有我自己的标题,我设置为 pass literal.title
,当 Tika 提取 a 时title
,我希望它覆盖我传入的那个literal.title
。这可能吗?
java - 如何通过 tika 检测波斯语网页?
我需要一个示例代码来帮助我通过 apache tika 工具包检测波斯语网页。
我已经下载了 apache.tika jar 文件并将它们添加到类路径中。但是此代码为波斯语提供了错误,但它适用于英语。如何将波斯语添加到 tika 的语言标识符包中?
apache - 如何在 tika 中创建语言配置文件以添加其他语言标识?
起初,我尝试通过 tika 检测波斯语:
但我知道 tika 不支持波斯语,我必须在 tika 中创建语言配置文件来处理波斯语。但我不知道该怎么做。实际上我无法从以下链接或谷歌中的其他链接中理解任何内容。请帮我。
https://issues.apache.org/jira/browse/TIKA-546
我想知道将语言配置文件添加到 tika 的步骤。