问题标签 [apache-tika]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1165 浏览

pdf - Solr ExtractingRequestHandler 为 pdf 文档提供空内容

我在 Solr 中使用 ExtractingRequestHandler 来获取文档内容并对其进行索引。它适用于所有 Microsoft 文档,但对于 PDF,被提取的内容是空的。我还尝试了使用 curl 的 extractOnly=true,它也只返回空的主体。

我已经在相同的文档上独立使用了 TIKA,并且可以很好地提取内容。不同之处在于,在独立执行时,我使用的是 Tika 附带的 BodyContentHander,而不是 Solr 使用的 SolrContentHandler。有人见过这个吗?

我真的宁愿让 Solr 处理它,而不是我使用 Tika 在 Solr 之外提取内容。

0 投票
2 回答
1635 浏览

full-text-search - 使用 Lucene 使用 Symfony 索引 PDF 文件

我是 Symfony 开发人员,我的 Web 服务器是 Linux。我已经使用了 sfLucene 插件。

在 Linux PHP 服务器上索引 PDF 文件以进行搜索的最简单方法是什么?

  1. XPDF像这样安装
  2. Apache Tika通过SOLR sfLucene 插件分支
  3. 第三种选择?

谢谢!

0 投票
3 回答
40905 浏览

solr - 如何在 SOLR 中索引文档?

我在 Ubuntu 10.04(通过 apt-get solr-tomcat 安装)上运行 Solr 1.4,它似乎工作正常。我很难找到有关如何索引文档的任何连贯信息。我是 SOLR 的新手,所以请多多包涵!我有一个文件夹(/mnt/folder),它是一个已安装的 Windows 共享,其中包含我想要索引的 Word 和 PDF 文件,让 SOLR 索引整个文件夹的最简单方法是什么?

SOLR 的文档很差,它不可能找到任何像样的教程来完成它,所以非常感谢任何帮助!

小号

0 投票
1 回答
424 浏览

java - 索尔; 这是什么意思?

在位于 solr 下的示例目录中的 README.txt 文件的末尾,我找到了这一行:

注意:此 Solr 示例服务器使用 solrconfig.xml 中的语句引用服务器目录之外的 SolrCell jar。如果您复制此示例服务器并希望使用 ExtractingRequestHandler (SolrCell),则需要将所需的 jar 复制到 solr/lib 或更新 solrconfig.xml 中 jar 的路径

这是什么意思?

在将 solr 上传到我的服务器之前,我是否需要进行一些调整?

另外,如果您知道,Solr-nightly:s 与常规 solr 的区别是什么?该教程声明“solr-nightly.zip”,但在他们的下载部分我找不到它。

0 投票
1 回答
2062 浏览

solr - Solr 的 TikaEntityProcessor 不工作

我试图让 Solr 索引一个数据库,其中一列是我想要索引的 PDF 文档的文件名。我的配置如下所示:

我正在使用主干中的 Solr(截至上周)。导入过程完成且没有错误,它会从数据库中提取列,但不会从 PDF 文件中提取内容。它肯定是在尝试访问 PDF 文件,因为如果我给它一个不正确的路径名,它会抱怨。不过,它似乎并没有尝试索引 PDF,因为它在大约 40 毫秒内完成,而如果我通过 导入 PDF ExtractingRequestHandler,索引它大约需要 11 秒。

我还尝试了 example-DIH 中的 tika 示例,它似乎也没有索引任何内容。我做错了什么,还是这还没有工作?

我在 OSX 10.6.3 上运行 Java 1.6.0_20。

(我应该注意到我已经在 solr-user 邮件列表上发布了这个并且没有得到答复。)

0 投票
1 回答
627 浏览

search - 将二进制/结构化文档发送到 SOLR 的方法?

我正在使用 SOLR 的ExtractingRequestHandler来获取文档的文本。

文档中的示例都使用 curl 流式传输文档,如下所示:

这工作得很好,但是有这个注释:

使用“curl”或其他命令行工具将文档发布到 Solr 非常适合测试,但不是推荐的更新方法以获得最佳性能。

文档中关于向 SOLR 发送文档的部分是 TODO。有哪些替代方法,它们如何更好?

0 投票
1 回答
1720 浏览

solr - SOLR Tika:将文件文本添加到现有记录(ExtractingRequestHandler)

我在 SOLR 中使用“名称”、“标题”和“描述”字段来索引帖子。我希望以后能够使用 Tika / ExtractingRequestHandler 添加文件(如 Word 文档或 PDF)。

我知道我可以像这样添加文档:(或通过其他界面)

curl ' http://localhost:8983/solr/update/extract?literal.id= post1 &commit=true' -F "myfile=@tutorial.html"

但这取代了正确的帖子(上面的 post1)——我可以传递一个参数让它只添加到记录中吗?

0 投票
2 回答
1015 浏览

apache - 使用 apache tika 从 gzip 文件中提取 xml 数据?

我正在一个项目中,我需要使用 apache tika [AM NEW TO TIKA] 从 gz 文件中提取 xml(站点地图)数据。fie 名称类似于 sitemap01.xml.gz 我可以从普通文本文件或 html 中提取数据,但我不知道如何从 gz 中提取 xml 并从 xml 中提取元数据和数据...我在 Google 上搜索了过去两天。

我需要在 tika 中使用 delegateParser 从 xml 中提取数据吗?请指导我一些样本或文章....

这是我的尝试

0 投票
1 回答
814 浏览

pdf - 索引 pdf 文档

索引 pdf 文档的最佳方法是什么?我应该通过将 pdf 文档转换为 txt 来索引它们,还是有更好的方法来索引 pdf 文件?

0 投票
2 回答
2573 浏览

solr - 如何使用 apache Solr 1.4.1 配置 Apache Tika

我想索引大量的 pdf 文档。

我找到了一个参考,表明它可以使用 Apache Tika 来完成,但不幸的是,我找不到任何描述我可以在 Solr 1.4.1 中配置 Apache Tika 的参考。

配置完成后,我确实配置了它,如何在不使用 curl 的情况下直接将文档发送到 Solr?

我正在使用 solrnet 进行索引。