问题标签 [apache-tika]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1189 问题

0 投票

1 回答

1165 浏览

pdf - Solr ExtractingRequestHandler 为 pdf 文档提供空内容

我在 Solr 中使用 ExtractingRequestHandler 来获取文档内容并对其进行索引。它适用于所有 Microsoft 文档，但对于 PDF，被提取的内容是空的。我还尝试了使用 curl 的 extractOnly=true，它也只返回空的主体。

我已经在相同的文档上独立使用了 TIKA，并且可以很好地提取内容。不同之处在于，在独立执行时，我使用的是 Tika 附带的 BodyContentHander，而不是 Solr 使用的 SolrContentHandler。有人见过这个吗？

我真的宁愿让 Solr 处理它，而不是我使用 Tika 在 Solr 之外提取内容。

2009-12-30T22:34:43.767

0 投票

2 回答

1635 浏览

full-text-search - 使用 Lucene 使用 Symfony 索引 PDF 文件

我是 Symfony 开发人员，我的 Web 服务器是 Linux。我已经使用了 sfLucene 插件。

在 Linux PHP 服务器上索引 PDF 文件以进行搜索的最简单方法是什么？

谢谢！

full-text-search lucene symfony1 apache-tika

2010-02-19T12:43:25.717

0 投票

3 回答

40905 浏览

solr - 如何在 SOLR 中索引文档？

我在 Ubuntu 10.04（通过 apt-get solr-tomcat 安装）上运行 Solr 1.4，它似乎工作正常。我很难找到有关如何索引文档的任何连贯信息。我是 SOLR 的新手，所以请多多包涵！我有一个文件夹（/mnt/folder），它是一个已安装的 Windows 共享，其中包含我想要索引的 Word 和 PDF 文件，让 SOLR 索引整个文件夹的最简单方法是什么？

SOLR 的文档很差，它不可能找到任何像样的教程来完成它，所以非常感谢任何帮助！

小号

solr full-text-search apache-tika solr-cell

2010-05-10T10:48:10.873

0 投票

1 回答

424 浏览

java - 索尔; 这是什么意思？

在位于 solr 下的示例目录中的 README.txt 文件的末尾，我找到了这一行：

注意：此 Solr 示例服务器使用 solrconfig.xml 中的语句引用服务器目录之外的 SolrCell jar。如果您复制此示例服务器并希望使用 ExtractingRequestHandler (SolrCell)，则需要将所需的 jar 复制到 solr/lib 或更新 solrconfig.xml 中 jar 的路径

这是什么意思？

在将 solr 上传到我的服务器之前，我是否需要进行一些调整？

另外，如果您知道，Solr-nightly:s 与常规 solr 的区别是什么？该教程声明“solr-nightly.zip”，但在他们的下载部分我找不到它。

java php full-text-search apache-tika solr-cell

user188962

2010-05-29T14:32:25.680

0 投票

1 回答

2062 浏览

solr - Solr 的 TikaEntityProcessor 不工作

我试图让 Solr 索引一个数据库，其中一列是我想要索引的 PDF 文档的文件名。我的配置如下所示：

我正在使用主干中的 Solr（截至上周）。导入过程完成且没有错误，它会从数据库中提取列，但不会从 PDF 文件中提取内容。它肯定是在尝试访问 PDF 文件，因为如果我给它一个不正确的路径名，它会抱怨。不过，它似乎并没有尝试索引 PDF，因为它在大约 40 毫秒内完成，而如果我通过导入 PDF ExtractingRequestHandler，索引它大约需要 11 秒。

我还尝试了 example-DIH 中的 tika 示例，它似乎也没有索引任何内容。我做错了什么，还是这还没有工作？

我在 OSX 10.6.3 上运行 Java 1.6.0_20。

（我应该注意到我已经在 solr-user 邮件列表上发布了这个并且没有得到答复。）

solr apache-tika solr-cell

2010-06-01T21:22:22.707

0 投票

1 回答

627 浏览

search - 将二进制/结构化文档发送到 SOLR 的方法？

我正在使用 SOLR 的ExtractingRequestHandler来获取文档的文本。

文档中的示例都使用 curl 流式传输文档，如下所示：

这工作得很好，但是有这个注释：

使用“curl”或其他命令行工具将文档发布到 Solr 非常适合测试，但不是推荐的更新方法以获得最佳性能。

文档中关于向 SOLR 发送文档的部分是 TODO。有哪些替代方法，它们如何更好？

search solr full-text-search apache-tika solr-cell

2010-07-27T16:31:50.423

0 投票

1 回答

1720 浏览

solr - SOLR Tika：将文件文本添加到现有记录（ExtractingRequestHandler）

我在 SOLR 中使用“名称”、“标题”和“描述”字段来索引帖子。我希望以后能够使用 Tika / ExtractingRequestHandler 添加文件（如 Word 文档或 PDF）。

我知道我可以像这样添加文档：（或通过其他界面）

curl ' http://localhost:8983/solr/update/extract?literal.id= post1 &commit=true' -F "myfile=@tutorial.html"

但这取代了正确的帖子（上面的 post1）——我可以传递一个参数让它只添加到记录中吗？

solr full-text-search apache-tika solr-cell

2010-07-27T20:12:17.963

0 投票

2 回答

1015 浏览

apache - 使用 apache tika 从 gzip 文件中提取 xml 数据？

我正在一个项目中，我需要使用 apache tika [AM NEW TO TIKA] 从 gz 文件中提取 xml（站点地图）数据。fie 名称类似于 sitemap01.xml.gz 我可以从普通文本文件或 html 中提取数据，但我不知道如何从 gz 中提取 xml 并从 xml 中提取元数据和数据...我在 Google 上搜索了过去两天。

我需要在 tika 中使用 delegateParser 从 xml 中提取数据吗？请指导我一些样本或文章....

这是我的尝试

apache gzip apache-tika

2010-08-16T19:27:07.717

0 投票

1 回答

814 浏览

pdf - 索引 pdf 文档

索引 pdf 文档的最佳方法是什么？我应该通过将 pdf 文档转换为 txt 来索引它们，还是有更好的方法来索引 pdf 文件？

pdf solr full-text-indexing apache-tika solr-cell

2010-09-17T21:34:46.767

0 投票

2 回答

2573 浏览

solr - 如何使用 apache Solr 1.4.1 配置 Apache Tika

我想索引大量的 pdf 文档。

我找到了一个参考，表明它可以使用 Apache Tika 来完成，但不幸的是，我找不到任何描述我可以在 Solr 1.4.1 中配置 Apache Tika 的参考。

配置完成后，我确实配置了它，如何在不使用 curl 的情况下直接将文档发送到 Solr？

我正在使用 solrnet 进行索引。

solr solrnet apache-tika solr-cell

2010-10-05T13:09:26.700

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-tika]

Reference