问题标签 [solr-cell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - 使用 solr 的提取功能时,如何将数据添加到动态字段?
我正在使用一个名为 solr-php-client (http://code.google.com/p/solr-php-client/) 的 PHP 库与我的 Solr 服务器进行交互。我可以从文档中提取数据、存储它并在其上搜索,但我似乎无法让它允许我将自己的数据添加到索引参数中:
我可以查询“文本”并获得结果:
但我无法查询任何动态字段,即“SS_Stage_ms”:
以下是适用的架构定义:
drupal - 让 ExtractingRequestHandler 在 Solr 中工作
我正在尝试让 Solr 与 Tika 一起工作,这样我就可以在我的 Drupal 网站中索引 Word 和 PDF 文档。
我查看了Wiki 页面和此页面,它们表明在 solrconfig.xml 中添加了 requestHandler。
我这样做了,现在 Solr 抛出了一个异常:
org.apache.solr.common.SolrException:加载类“org.apache.solr.handler.extraction.ExtractingRequestHandler”时出错
我进行了一些搜索,发现其他人遇到了这个问题,但没有简单的解决方法。我在Windows Server 2003上使用Solr 3.4.0。关于如何解决这个问题的任何想法?
附带说明一下,我已经让 Drupal 使用 Solr 进行搜索,这很有效。但是我不能让 Solr 索引 PDF 和 Word 文档。我确信这是大多数网站的共同需求,但我已经为此花费了数天时间,我无法相信它的文档记录很差,而且很难弄清楚。
ruby-on-rails - 如何使用 rsolr 上传文件?
我有一个文件需要在我们的 solr 服务器上建立索引。如何上传文件?我知道如何使用 curl: curl "http://localhost:8983/solr/update/extract?literal.id=doc1&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@tutorial.html"
(来自http://wiki.apache.org/solr/ExtractingRequestHandler)但我不知道如何将其翻译为 rsolr rubygem。
提前致谢。
solr - Solr ExtractingRequestHandler pdf文本提取
我对 Solr 的 pdf 文本提取有疑问。Solr 使用 Apache Tika 来提取 PDF 文件的文本,而 tika 使用 PDFBox 来提取文本。当我将我的 PDF 文件发送到 Solr 时,它会成功提取文本,但文本完全混乱。类似的东西
MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht
但是,当我使用以下命令在命令行中直接使用 PDFBox 提取相同的 PDF 文件时,我会得到一个不错的结果。
java -jar pdfbox-app-1.6.0.jar ExtractText -console test.pdf
我不知道 solr 使用哪个 Tika 版本或更好的 PDFBox 版本。我什至在 solr 战争文件中找不到该库... lib 目录中的所有库如下:
如果有人知道解决方案,我会非常高兴。
solr - 在 SOLR 中映射字段以进行分面
我正在使用 SOLR 3.4 将富文本文档索引到 SOLR 3.4 中ExtractingRequestHandler
,但我无法让它表现得像我想要的那样。
我想将创建日期存储为稍后用于分面搜索的字段,并在中定义了以下内容schema.xml
:
我这样索引:
我得到了动态字段attr_creation_date
(其他规则确保),但我没有得到creation_date
. 我也没有成功地尝试过这样使用copyField
:
另一个尝试是把它放进去solrconfig.xml
,但没有运气:
我很确定我在这里遗漏了一些基本的东西。非常感谢任何帮助!
ExtractingRequestHandler
in 的设置solrconfig.xml
:
我的schema.xml
文件(很多默认的东西):https ://gist.github.com/1358002
solr - 导入富文档时是否有 SOLR 的最佳实践 schema.xml?
我正在与 SOLR 合作一个项目,我们在该项目中导入一堆(约 40k 项)丰富的文档,主要是 MS Word、Powerpoint、Excel 和 PDF。
使用 SOLR 时是否有最佳实践schema.xml
和/或solrconfig.xml
在 SOLR 中使用ExtractingRequestHandler
?
我一直在对默认模式进行调整,以尝试让构面在日期修改时间上起作用,但即使没有,我认为当 Tika 的默认输出足够时,很可能存在一个很好的例子来说明这些文件应该如何。
如果没有最佳实践之类的东西schema.xml
和/或solrconfig.xml
我也对好的例子感兴趣,最好来自现有的开源项目,甚至是好的博客文章。
欢迎任何指点!
solr - NoClassDefFoundError MimeTypeException 与 PDF 提取
我在尝试对 PDF 文件使用更新/提取时遇到异常
我的设置是:- Ubuntu Server 11.10 Tomcat 6 Solr 3.5.0.2011.11.22.15.54.38
我可以浏览到 solr/admin OK
我已将所有 contrib/extract 和 apache-solr-cell3.5.0.jar 库放入 tomcat 文件夹 webapps/solr/WEB-INF/lib
我正在使用以下方法调用提取物:-
错误是
将不胜感激任何指针 - 这个错误似乎出现在其他地方的唯一一次是 Nutch 和缓存的结果。
我尝试在查询字符串和 *.doc 文件中发送 mimetype,但遇到了同样的错误。
solr - ExtractingRequestHandler - 你如何发布多值文字字段?
我正在尝试发布一个文字多值字段以及 PDF 提取。似乎只有一个字段值被添加到索引中。这需要以不同的方式传递吗?
当前发送等价物(通过 POST 值):
solr - Tika Solr 元数据映射忽略文档标题
我有以下 solr 的配置文件:
这是我的架构:
我想设置title
自己。但是 Tika 一直在设置它自己的title
(这就是我multiValued="true"
临时设置的原因),我觉得这很奇怪,因为我必须手动映射像stream_size
and之类的东西content_type
。
有什么办法可以解决这个问题?
我希望 Tika 覆盖title
我分配的内容,如下所示:
我有 3 个文档,其中一个,Tika 没有提取 a title
,在这种情况下,我有我自己的标题,我设置为 pass literal.title
,当 Tika 提取 a 时title
,我希望它覆盖我传入的那个literal.title
。这可能吗?
java - Solr 获取文档的段落
我已经使用 solr 工作了几天,我需要将文档拆分为多个段落,然后搜索每个段落。我尝试了很多东西,但 solr 只是不想正确捕获段落;它要么什么都不捕获,要么将所有内容都捕获为一个大文本。我试过了:
无论我尝试什么组合,它总是会得到错误的结果。有谁知道如何获取段落并使它们易于使用?我正在编写一个插件,它执行基于基本查询的摘要,并且应该检索具有关于查询的最多信息的段落,但我只是不知道如何获取这些段落。
谢谢!