问题标签 [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - Solr ExtractingRequestHandler 为 pdf 文档提供空内容
我在 Solr 中使用 ExtractingRequestHandler 来获取文档内容并对其进行索引。它适用于所有 Microsoft 文档,但对于 PDF,被提取的内容是空的。我还尝试了使用 curl 的 extractOnly=true,它也只返回空的主体。
我已经在相同的文档上独立使用了 TIKA,并且可以很好地提取内容。不同之处在于,在独立执行时,我使用的是 Tika 附带的 BodyContentHander,而不是 Solr 使用的 SolrContentHandler。有人见过这个吗?
我真的宁愿让 Solr 处理它,而不是我使用 Tika 在 Solr 之外提取内容。
full-text-search - 使用 Lucene 使用 Symfony 索引 PDF 文件
我是 Symfony 开发人员,我的 Web 服务器是 Linux。我已经使用了 sfLucene 插件。
在 Linux PHP 服务器上索引 PDF 文件以进行搜索的最简单方法是什么?
- XPDF,像这样安装
- Apache Tika通过SOLR sfLucene 插件分支
- 第三种选择?
谢谢!
solr - 如何在 SOLR 中索引文档?
我在 Ubuntu 10.04(通过 apt-get solr-tomcat 安装)上运行 Solr 1.4,它似乎工作正常。我很难找到有关如何索引文档的任何连贯信息。我是 SOLR 的新手,所以请多多包涵!我有一个文件夹(/mnt/folder),它是一个已安装的 Windows 共享,其中包含我想要索引的 Word 和 PDF 文件,让 SOLR 索引整个文件夹的最简单方法是什么?
SOLR 的文档很差,它不可能找到任何像样的教程来完成它,所以非常感谢任何帮助!
小号
java - 索尔; 这是什么意思?
在位于 solr 下的示例目录中的 README.txt 文件的末尾,我找到了这一行:
注意:此 Solr 示例服务器使用 solrconfig.xml 中的语句引用服务器目录之外的 SolrCell jar。如果您复制此示例服务器并希望使用 ExtractingRequestHandler (SolrCell),则需要将所需的 jar 复制到 solr/lib 或更新 solrconfig.xml 中 jar 的路径
这是什么意思?
在将 solr 上传到我的服务器之前,我是否需要进行一些调整?
另外,如果您知道,Solr-nightly:s 与常规 solr 的区别是什么?该教程声明“solr-nightly.zip”,但在他们的下载部分我找不到它。
solr - Solr 的 TikaEntityProcessor 不工作
我试图让 Solr 索引一个数据库,其中一列是我想要索引的 PDF 文档的文件名。我的配置如下所示:
我正在使用主干中的 Solr(截至上周)。导入过程完成且没有错误,它会从数据库中提取列,但不会从 PDF 文件中提取内容。它肯定是在尝试访问 PDF 文件,因为如果我给它一个不正确的路径名,它会抱怨。不过,它似乎并没有尝试索引 PDF,因为它在大约 40 毫秒内完成,而如果我通过 导入 PDF ExtractingRequestHandler
,索引它大约需要 11 秒。
我还尝试了 example-DIH 中的 tika 示例,它似乎也没有索引任何内容。我做错了什么,还是这还没有工作?
我在 OSX 10.6.3 上运行 Java 1.6.0_20。
(我应该注意到我已经在 solr-user 邮件列表上发布了这个并且没有得到答复。)
search - 将二进制/结构化文档发送到 SOLR 的方法?
我正在使用 SOLR 的ExtractingRequestHandler来获取文档的文本。
文档中的示例都使用 curl 流式传输文档,如下所示:
这工作得很好,但是有这个注释:
使用“curl”或其他命令行工具将文档发布到 Solr 非常适合测试,但不是推荐的更新方法以获得最佳性能。
文档中关于向 SOLR 发送文档的部分是 TODO。有哪些替代方法,它们如何更好?
solr - SOLR Tika:将文件文本添加到现有记录(ExtractingRequestHandler)
我在 SOLR 中使用“名称”、“标题”和“描述”字段来索引帖子。我希望以后能够使用 Tika / ExtractingRequestHandler 添加文件(如 Word 文档或 PDF)。
我知道我可以像这样添加文档:(或通过其他界面)
curl ' http://localhost:8983/solr/update/extract?literal.id= post1 &commit=true' -F "myfile=@tutorial.html"
但这取代了正确的帖子(上面的 post1)——我可以传递一个参数让它只添加到记录中吗?
apache - 使用 apache tika 从 gzip 文件中提取 xml 数据?
我正在一个项目中,我需要使用 apache tika [AM NEW TO TIKA] 从 gz 文件中提取 xml(站点地图)数据。fie 名称类似于 sitemap01.xml.gz 我可以从普通文本文件或 html 中提取数据,但我不知道如何从 gz 中提取 xml 并从 xml 中提取元数据和数据...我在 Google 上搜索了过去两天。
我需要在 tika 中使用 delegateParser 从 xml 中提取数据吗?请指导我一些样本或文章....
这是我的尝试
pdf - 索引 pdf 文档
索引 pdf 文档的最佳方法是什么?我应该通过将 pdf 文档转换为 txt 来索引它们,还是有更好的方法来索引 pdf 文件?
solr - 如何使用 apache Solr 1.4.1 配置 Apache Tika
我想索引大量的 pdf 文档。
我找到了一个参考,表明它可以使用 Apache Tika 来完成,但不幸的是,我找不到任何描述我可以在 Solr 1.4.1 中配置 Apache Tika 的参考。
配置完成后,我确实配置了它,如何在不使用 curl 的情况下直接将文档发送到 Solr?
我正在使用 solrnet 进行索引。