问题标签 [solr-cell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1193 浏览

solr - 使用 solr 的提取功能时,如何将数据添加到动态字段?

我正在使用一个名为 solr-php-client (http://code.google.com/p/solr-php-client/) 的 PHP 库与我的 Solr 服务器进行交互。我可以从文档中提取数据、存储它并在其上搜索,但我似乎无法让它允许我将自己的数据添加到索引参数中:

我可以查询“文本”并获得结果:

但我无法查询任何动态字段,即“SS_Stage_ms”:

以下是适用的架构定义:

0 投票
1 回答
5393 浏览

drupal - 让 ExtractingRequestHandler 在 Solr 中工作

我正在尝试让 Solr 与 Tika 一起工作,这样我就可以在我的 Drupal 网站中索引 Word 和 PDF 文档。

我查看了Wiki 页面和此页面,它们表明在 solrconfig.xml 中添加了 requestHandler。

我这样做了,现在 Solr 抛出了一个异常:

org.apache.solr.common.SolrException:加载类“org.apache.solr.handler.extraction.ExtractingRequestHandler”时出错

我进行了一些搜索,发现其他人遇到了这个问题,但没有简单的解决方法。我在Windows Server 2003上使用Solr 3.4.0。关于如何解决这个问题的任何想法?

附带说明一下,我已经让 Drupal 使用 Solr 进行搜索,这很有效。但是我不能让 Solr 索引 PDF 和 Word 文档。我确信这是大多数网站的共同需求,但我已经为此花费了数天时间,我无法相信它的文档记录很差,而且很难弄清楚。

0 投票
1 回答
469 浏览

ruby-on-rails - 如何使用 rsolr 上传文件?

我有一个文件需要在我们的 solr 服务器上建立索引。如何上传文件?我知道如何使用 curl: curl "http://localhost:8983/solr/update/extract?literal.id=doc1&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@tutorial.html"

(来自http://wiki.apache.org/solr/ExtractingRequestHandler)但我不知道如何将其翻译为 rsolr ruby​​gem。

提前致谢。

0 投票
1 回答
1596 浏览

solr - Solr ExtractingRequestHandler pdf文本提取

我对 Solr 的 pdf 文本提取有疑问。Solr 使用 Apache Tika 来提取 PDF 文件的文本,而 tika 使用 PDFBox 来提取文本。当我将我的 PDF 文件发送到 Solr 时,它会成功提取文本,但文本完全混乱。类似的东西

MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht

但是,当我使用以下命令在命令行中直接使用 PDFBox 提取相同的 PDF 文件时,我会得到一个不错的结果。

java -jar pdfbox-app-1.6.0.jar ExtractText -console test.pdf

我不知道 solr 使用哪个 Tika 版本或更好的 PDFBox 版本。我什至在 solr 战争文件中找不到该库... lib 目录中的所有库如下:

如果有人知道解决方案,我会非常高兴。

0 投票
0 回答
872 浏览

solr - 在 SOLR 中映射字段以进行分面

我正在使用 SOLR 3.4 将富文本文档索引到 SOLR 3.4 中ExtractingRequestHandler,但我无法让它表现得像我想要的那样。

我想将创建日期存储为稍后用于分面搜索的字段,并在中定义了以下内容schema.xml

我这样索引:

我得到了动态字段attr_creation_date(其他规则确保),但我没有得到creation_date. 我也没有成功地尝试过这样使用copyField

另一个尝试是把它放进去solrconfig.xml,但没有运气:

我很确定我在这里遗漏了一些基本的东西。非常感谢任何帮助!

ExtractingRequestHandlerin 的设置solrconfig.xml

我的schema.xml文件(很多默认的东西):https ://gist.github.com/1358002

0 投票
1 回答
729 浏览

solr - 导入富文档时是否有 SOLR 的最佳实践 schema.xml?

我正在与 SOLR 合作一个项目,我们在该项目中导入一堆(约 40k 项)丰富的文档,主要是 MS Word、Powerpoint、Excel 和 PDF。

使用 SOLR 时是否有最佳实践schema.xml和/或solrconfig.xml在 SOLR 中使用ExtractingRequestHandler

我一直在对默认模式进行调整,以尝试让构面在日期修改时间上起作用,但即使没有,我认为当 Tika 的默认输出足够时,很可能存在一个很好的例子来说明这些文件应该如何。

如果没有最佳实践之类的东西schema.xml和/或solrconfig.xml我也对好的例子感兴趣,最好来自现有的开源项目,甚至是好的博客文章。

欢迎任何指点!

0 投票
3 回答
2774 浏览

solr - NoClassDefFoundError MimeTypeException 与 PDF 提取

我在尝试对 PDF 文件使用更新/提取时遇到异常

我的设置是:- Ubuntu Server 11.10 Tomcat 6 Solr 3.5.0.2011.11.22.15.54.38

我可以浏览到 solr/admin OK

我已将所有 contrib/extract 和 apache-solr-cell3.5.0.jar 库放入 tomcat 文件夹 webapps/solr/WEB-INF/lib

我正在使用以下方法调用提取物:-

错误是

将不胜感激任何指针 - 这个错误似乎出现在其他地方的唯一一次是 Nutch 和缓存的结果。

我尝试在查询字符串和 *.doc 文件中发送 mimetype,但遇到了同样的错误。

0 投票
2 回答
1247 浏览

solr - ExtractingRequestHandler - 你如何发布多值文字字段?

我正在尝试发布一个文字多值字段以及 PDF 提取。似乎只有一个字段值被添加到索引中。这需要以不同的方式传递吗?

当前发送等价物(通过 POST 值):

0 投票
2 回答
1428 浏览

solr - Tika Solr 元数据映射忽略文档标题

我有以下 solr 的配置文件:

这是我的架构:

我想设置title自己。但是 Tika 一直在设置它自己的title(这就是我multiValued="true"临时设置的原因),我觉得这很奇怪,因为我必须手动映射像stream_sizeand之类的东西content_type

有什么办法可以解决这个问题?

我希望 Tika 覆盖title我分配的内容,如下所示:

我有 3 个文档,其中一个,Tika 没有提取 a title,在这种情况下,我有我自己的标题,我设置为 pass literal.title,当 Tika 提取 a 时title,我希望它覆盖我传入的那个literal.title。这可能吗?

0 投票
0 回答
326 浏览

java - Solr 获取文档的段落

我已经使用 solr 工作了几天,我需要将文档拆分为多个段落,然后搜索每个段落。我尝试了很多东西,但 solr 只是不想正确捕获段落;它要么什么都不捕获,要么将所有内容都捕获为一个大文本。我试过了:

无论我尝试什么组合,它总是会得到错误的结果。有谁知道如何获取段落并使它们易于使用?我正在编写一个插件,它执行基于基本查询的摘要,并且应该检索具有关于查询的最多信息的段落,但我只是不知道如何获取这些段落。

谢谢!