0 投票

2 回答

4815 浏览

java - 使用 Apache Tika 解析 HTML 问题

我正在抓取一个网页，并在抓取它之后从该网页中提取所有链接，然后我尝试使用下面的代码使用 Apache Tika 和 BoilerPipe 解析所有 url，因此对于某些 url，它解析得很好，但对于某些我得到错误像这样。它在 HTMLParser.java 上显示了一些错误：第 102 行。这是 HTMLParser.java 中的第 102 行

我也提供了 HTMLParse 代码。

这是我的 HTMLParser.java 文件-

任何建议将不胜感激。

2011-11-30T00:21:20.590

0 投票

2 回答

4152 浏览

java - 使用 Apache Tika 解析 XML 文件

我正在抓取一个网页，并在抓取它之后从该网页中提取所有链接，然后我尝试使用下面的代码使用 Apache Tika 和 BoilerPipe 解析所有 url，因此对于某些 url，它解析得很好，但我得到的 XML 很少以下错误。我不确定这个错误是什么意思。我的代码有问题还是 XML 文件有问题？这是 HTML Parser.java 中下面的第 100 行

我遇到的错误-

HTMLParser.java 代码-

java parsing apache-tika

2011-11-30T00:30:58.297

0 投票

1 回答

737 浏览

java - 为什么使用 ForkParser 时没有填充我的 Tika 元数据对象？

ForkParser是在 Tika 0.9 版中引入的新 Tika 解析器，位于org.apache.tika.fork. 新的解析器派生出一个新的 jvm 进程来分析传递的文件流。我认为这可能是限制我愿意为 Tika 的元数据提取过程投入多少内存的好方法。但是，该Metadata对象没有像使用AutoDetectParser. 测试表明该BodyContentHandler对象不是null。

为什么Metadata对象没有填充任何东西（手动添加的除外RESOURCE_NAME_KEY）？

java memory-management metadata content-type apache-tika

2011-12-01T23:35:06.283

0 投票

1 回答

729 浏览

solr - 导入富文档时是否有 SOLR 的最佳实践 schema.xml？

我正在与 SOLR 合作一个项目，我们在该项目中导入一堆（约 40k 项）丰富的文档，主要是 MS Word、Powerpoint、Excel 和 PDF。

使用 SOLR 时是否有最佳实践schema.xml和/或solrconfig.xml在 SOLR 中使用ExtractingRequestHandler？

我一直在对默认模式进行调整，以尝试让构面在日期修改时间上起作用，但即使没有，我认为当 Tika 的默认输出足够时，很可能存在一个很好的例子来说明这些文件应该如何。

如果没有最佳实践之类的东西schema.xml和/或solrconfig.xml我也对好的例子感兴趣，最好来自现有的开源项目，甚至是好的博客文章。

欢迎任何指点！

solr lucene full-text-search apache-tika solr-cell

2011-12-05T23:31:21.150

0 投票

0 回答

2119 浏览

java - 当自动检测解析器似乎工作正常时，为什么 Tika 的 ForkParser 会抛出 NoClassDefFoundError？

我正在使用 apache Tika 1.0。使用 ForkParser，每当我解析 pdf 文件时，我都会收到以下 NoClassDefFoundException：

检查 jar 显示 MemoryURLStreamHandler$Record 存在于 tika-core jar 文件中。当我使用 AutoDetectParser 而不是 ForkParser 时，我能够毫无问题地从文件中提取元数据，但需要能够限制 Tika 内存使用，因此需要使用 ForkParser。如何让 pdf 解析与 Tika 的 ForkParser 一起工作？

这是一段代码，直到我进行解析：

编辑#1

我使用“-f”选项测试了 Tika 1.0 和 Tika 0.10 CLI 应用程序，并且在使用 Mac OS-X 的 SoyLatte java 6 端口时收到了 IOException（Broken Pipe）。该端口仅在我的开发机器上运行，因此我在带有“-f”开关的 linux 测试机器上运行 CLI 应用程序（1.0 和 0.10），如下所示

java -jar tika-app-1.0.jar -f /path/to/my/file.pdf

我不再收到异常，但我也没有得到任何输出。我觉得这很奇怪，但认为它可能仍然有效，只是没有产生任何输出（我猜永远是个乐观主义者）。

我在我的 Mac OS-X 终端中取消设置所有环境变量，并尝试使用 OS-X 内置的 java 6 运行 Tika CLI。我得到了与在 linux 测试机器上相同的结果，打印了一些换行符，但是没有其他的。我尝试使用 jpg 文件而不是 pdf 文件，并且 tika 应用程序打印出带有广告的元数据的 xhtml 文档！接下来我尝试了一个 docx 文件，但像 pdf 一样，不打印任何内容。

编辑#2

我编写了一个小的测试 java 程序，并将它放在我们应用程序的上下文之外，以便它在一个新的环境中运行。

我是这样编译的

javac -cp /path/to/tika-app-1.0.jar ForkParserTest.java

然后像这样跑

java -cp /path/to/tika-app-1.0.jar:${PWD} ForkParserTest /path/to/file.pdf

并用jpeg对其进行了测试。它的执行方式与 Tika CLI 应用程序完全相同，它为 jpg 打印 XHTML 文档，但不为 pdf 或 docx 文件打印任何内容。

如果有人知道如何解决这个问题，请告诉我！此外，如果您在 pdf 文件或 docx 文件上运行此测试并实际打印结果，也请告诉我您是如何做到的。

谢谢！

我对在 stackoverflow 上发帖也很陌生，如果这完全是 tl;dr，感谢您的反馈，请给我一些建议，以使其更简洁。

java parsing fork noclassdeffounderror apache-tika

2011-12-08T00:50:42.280

0 投票

3 回答

2774 浏览

solr - NoClassDefFoundError MimeTypeException 与 PDF 提取

我在尝试对 PDF 文件使用更新/提取时遇到异常

我的设置是：- Ubuntu Server 11.10 Tomcat 6 Solr 3.5.0.2011.11.22.15.54.38

我可以浏览到 solr/admin OK

我已将所有 contrib/extract 和 apache-solr-cell3.5.0.jar 库放入 tomcat 文件夹 webapps/solr/WEB-INF/lib

我正在使用以下方法调用提取物：-

错误是

将不胜感激任何指针 - 这个错误似乎出现在其他地方的唯一一次是 Nutch 和缓存的结果。

我尝试在查询字符串和 *.doc 文件中发送 mimetype，但遇到了同样的错误。

solr apache-tika solr-cell

2011-12-09T11:39:22.500

0 投票

2 回答

1247 浏览

solr - ExtractingRequestHandler - 你如何发布多值文字字段？

我正在尝试发布一个文字多值字段以及 PDF 提取。似乎只有一个字段值被添加到索引中。这需要以不同的方式传递吗？

当前发送等价物（通过 POST 值）：

solr apache-tika solr-cell

2011-12-15T17:07:56.090

0 投票

2 回答

1428 浏览

solr - Tika Solr 元数据映射忽略文档标题

我有以下 solr 的配置文件：

这是我的架构：

我想设置title自己。但是 Tika 一直在设置它自己的title（这就是我multiValued="true"临时设置的原因），我觉得这很奇怪，因为我必须手动映射像stream_sizeand之类的东西content_type。

有什么办法可以解决这个问题？

我希望 Tika 覆盖title我分配的内容，如下所示：

我有 3 个文档，其中一个，Tika 没有提取 a title，在这种情况下，我有我自己的标题，我设置为 pass literal.title，当 Tika 提取 a 时title，我希望它覆盖我传入的那个literal.title。这可能吗？

solr metadata apache-tika solr-cell

2011-12-21T17:58:16.797

0 投票

1 回答

2939 浏览

java - 如何通过 tika 检测波斯语网页？

我需要一个示例代码来帮助我通过 apache tika 工具包检测波斯语网页。

我已经下载了 apache.tika jar 文件并将它们添加到类路径中。但是此代码为波斯语提供了错误，但它适用于英语。如何将波斯语添加到 tika 的语言标识符包中？

java apache apache-tika language-detection farsi

2012-01-28T11:30:10.040

0 投票

1 回答

1020 浏览

apache - 如何在 tika 中创建语言配置文件以添加其他语言标识？

起初，我尝试通过 tika 检测波斯语：

如何通过 tika 检测波斯语网页？

但我知道 tika 不支持波斯语，我必须在 tika 中创建语言配置文件来处理波斯语。但我不知道该怎么做。实际上我无法从以下链接或谷歌中的其他链接中理解任何内容。请帮我。

https://issues.apache.org/jira/browse/TIKA-546

我想知道将语言配置文件添加到 tika 的步骤。

apache apache-tika language-detection

2012-01-28T13:48:56.440

问题标签 [apache-tika]

编辑#1

编辑#2

Reference