问题标签 [solr-cell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
284 浏览

php - 使用 Zend Lucene 搜索 Office 2003 或更早版本的文件

我知道已经有支持 Office 2007 文件的对象,但是是否有任何本机 Office 2003 或更早版本的支持?

0 投票
1 回答
1165 浏览

pdf - Solr ExtractingRequestHandler 为 pdf 文档提供空内容

我在 Solr 中使用 ExtractingRequestHandler 来获取文档内容并对其进行索引。它适用于所有 Microsoft 文档,但对于 PDF,被提取的内容是空的。我还尝试了使用 curl 的 extractOnly=true,它也只返回空的主体。

我已经在相同的文档上独立使用了 TIKA,并且可以很好地提取内容。不同之处在于,在独立执行时,我使用的是 Tika 附带的 BodyContentHander,而不是 Solr 使用的 SolrContentHandler。有人见过这个吗?

我真的宁愿让 Solr 处理它,而不是我使用 Tika 在 Solr 之外提取内容。

0 投票
3 回答
40905 浏览

solr - 如何在 SOLR 中索引文档?

我在 Ubuntu 10.04(通过 apt-get solr-tomcat 安装)上运行 Solr 1.4,它似乎工作正常。我很难找到有关如何索引文档的任何连贯信息。我是 SOLR 的新手,所以请多多包涵!我有一个文件夹(/mnt/folder),它是一个已安装的 Windows 共享,其中包含我想要索引的 Word 和 PDF 文件,让 SOLR 索引整个文件夹的最简单方法是什么?

SOLR 的文档很差,它不可能找到任何像样的教程来完成它,所以非常感谢任何帮助!

小号

0 投票
1 回答
424 浏览

java - 索尔; 这是什么意思?

在位于 solr 下的示例目录中的 README.txt 文件的末尾,我找到了这一行:

注意:此 Solr 示例服务器使用 solrconfig.xml 中的语句引用服务器目录之外的 SolrCell jar。如果您复制此示例服务器并希望使用 ExtractingRequestHandler (SolrCell),则需要将所需的 jar 复制到 solr/lib 或更新 solrconfig.xml 中 jar 的路径

这是什么意思?

在将 solr 上传到我的服务器之前,我是否需要进行一些调整?

另外,如果您知道,Solr-nightly:s 与常规 solr 的区别是什么?该教程声明“solr-nightly.zip”,但在他们的下载部分我找不到它。

0 投票
1 回答
2062 浏览

solr - Solr 的 TikaEntityProcessor 不工作

我试图让 Solr 索引一个数据库,其中一列是我想要索引的 PDF 文档的文件名。我的配置如下所示:

我正在使用主干中的 Solr(截至上周)。导入过程完成且没有错误,它会从数据库中提取列,但不会从 PDF 文件中提取内容。它肯定是在尝试访问 PDF 文件,因为如果我给它一个不正确的路径名,它会抱怨。不过,它似乎并没有尝试索引 PDF,因为它在大约 40 毫秒内完成,而如果我通过 导入 PDF ExtractingRequestHandler,索引它大约需要 11 秒。

我还尝试了 example-DIH 中的 tika 示例,它似乎也没有索引任何内容。我做错了什么,还是这还没有工作?

我在 OSX 10.6.3 上运行 Java 1.6.0_20。

(我应该注意到我已经在 solr-user 邮件列表上发布了这个并且没有得到答复。)

0 投票
1 回答
627 浏览

search - 将二进制/结构化文档发送到 SOLR 的方法?

我正在使用 SOLR 的ExtractingRequestHandler来获取文档的文本。

文档中的示例都使用 curl 流式传输文档,如下所示:

这工作得很好,但是有这个注释:

使用“curl”或其他命令行工具将文档发布到 Solr 非常适合测试,但不是推荐的更新方法以获得最佳性能。

文档中关于向 SOLR 发送文档的部分是 TODO。有哪些替代方法,它们如何更好?

0 投票
1 回答
1720 浏览

solr - SOLR Tika:将文件文本添加到现有记录(ExtractingRequestHandler)

我在 SOLR 中使用“名称”、“标题”和“描述”字段来索引帖子。我希望以后能够使用 Tika / ExtractingRequestHandler 添加文件(如 Word 文档或 PDF)。

我知道我可以像这样添加文档:(或通过其他界面)

curl ' http://localhost:8983/solr/update/extract?literal.id= post1 &commit=true' -F "myfile=@tutorial.html"

但这取代了正确的帖子(上面的 post1)——我可以传递一个参数让它只添加到记录中吗?

0 投票
1 回答
814 浏览

pdf - 索引 pdf 文档

索引 pdf 文档的最佳方法是什么?我应该通过将 pdf 文档转换为 txt 来索引它们,还是有更好的方法来索引 pdf 文件?

0 投票
2 回答
2573 浏览

solr - 如何使用 apache Solr 1.4.1 配置 Apache Tika

我想索引大量的 pdf 文档。

我找到了一个参考,表明它可以使用 Apache Tika 来完成,但不幸的是,我找不到任何描述我可以在 Solr 1.4.1 中配置 Apache Tika 的参考。

配置完成后,我确实配置了它,如何在不使用 curl 的情况下直接将文档发送到 Solr?

我正在使用 solrnet 进行索引。

0 投票
1 回答
1899 浏览

java - 使用 Solr CELL 的 ExtractingRequestHandler 从包格式中索引/提取文件

您可以使用具有任何压缩文件格式(zip、tar、gz 等)的 ExtractingRequestHandler 和 Tika 来提取内容以进行索引吗?

我正在使用 curl 向 solr 发送 archived.tar 文件。curl " http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true " -H 'Content-type:application/octet-stream' --data-binary "@/home /archived.tar" 当我查询文档时得到的结果是存档中的文件名被索引为“body_texts”,但这些文件的内容没有被提取或包含。这不是我所期望的行为。参考: http ://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example 。当我使用相同的 curl 命令在存档中发送 1 个实际文档时,提取的内容然后存储在“body_texts”字段中。

我已经添加了所有提取依赖项,如 http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell中的 mat 所示,并且能够成功地从 MS Word、PDF、HTML 文档中提取数据。

我正在使用以下库版本。Solr 1.40,Solr Cell 1.4.1,带有 Tika Core 0.4

鉴于我读过的所有内容,这个版本的 Tika 应该支持从压缩文件中的所有文件中提取数据。任何帮助或建议将不胜感激。