问题标签 [solr-cell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1403 浏览

ruby-on-rails - 如何在 Solr Cell 中使用最新版本的 Sunspot gem?

我一直在尝试(徒劳地)让最新版本的 Sunspot gem(当前为 2.0.0.pre.111215,包含 Solr 3.5)与 Solr Cell 一起使用。

目前,我正在使用旧版本的 Sunspot 与以下插件提供的 Solr Cell - https://github.com/chebyte/sunspot_cell

此配置的我的 Gemfile 如下;

不幸的是,这种较旧的 Solr/Solr 单元组合不适用于许多较新的 PDF 文件。Apache 推荐的解决方案是升级到两者的最新版本。

Sunspot Solr Cell 螺栓连接似乎没有得到很好的支持。最近更新的版本已从插件切换到 Gem,但我仍然无法让它与最新版本的 Sunspot Gem 一起使用。https://github.com/zheileman/sunspot_cell

有谁知道正确的 Gemfile 配置以使元素一起很好地发挥作用?我最接近的是这个。

当我运行任何 rake 任务时,我收到以下错误。

如果我暂时将 sunspot_cell gem 注释掉,我可以让 Rake 任务运行,但实际搜索会失败。

我已经尝试在这个 gem中手动使用 Solr jar 文件,而不是 sunspot_solr 中捆绑的那些,但也没有成功。

0 投票
1 回答
722 浏览

pdf - 使用 Solr Cell 搜索索引 PDF 时没有结果

我已经使用 Solr 有一段时间了,我最近尝试了 solr-cell 组件并且我正在索引一些 PDF,但是我在这个线程中遇到了完全相同的问题。

当我在管理控制台中搜索 *:* 时,会列出 PDF。但是,当我在 PDF 中搜索内容时,我没有得到任何结果。

我已经尝试了那里给出的答案中的命令,但没有运气,我仍然遇到同样的问题,我尝试过不同的 Solr 版本(我使用的是 3.5 btw),不同的 PDF,我已经更改了架构中的字段.xml,我已经修改了 solrconfig.xml 中的 RequestHandlers,但似乎没有任何效果。任何帮助将不胜感激。

0 投票
1 回答
2244 浏览

solr - 使用 solrj 向 pdf 文件添加字段

我是 solr 的新手。我在使用 ContentStreamUpdateRequest 在 solr 中对它们进行索引时将字段/元数据添加到 pdf 文件时遇到问题。由于必须使用文字参数来添加字段,所以我尝试了以下操作:

pdf 文件在 solr 中被索引,但问题是并非所有字段都是使用文字创建的。以下字段已创建:

  1. ID
  2. 姓名
  3. 类别

    虽然它不会创建像url_file或类似路径位置的任何字段。*有时* 它不会创建字段Category
    根据我所经历的,可以使用文字参数创建任何随机字段来创建元数据。为什么总是创建像idname甚至blah_s这样的字段但是当我尝试像上面提到的随机字段时,solr不创建?
    我们是否也必须在其他任何地方声明这些随机字段?
    任何帮助是极大的赞赏。
    更新:调用方法 up.setParam("literal.myField") 不会修改 schema.xml 以创建新字段吗?

0 投票
1 回答
4803 浏览

solr - Apache Solr - 索引 PDF 文件

嗨,我已经尝试使用二进制发行版执行此操作,并自己编译了源代码。也尝试使用 Apache Tomcat 运行它。但是当我使用 pdf 文件进行索引时,我总是收到以下错误。我正在使用 Solr 示例项目中提供的 post.jar。

我也尝试在 Win 7 (JDK 1.7) 和 Centos (1.6) 上运行它。

我在互联网上搜索并在错误跟踪器上找到了 Jetty jar 文件的修补版本,但即使替换了这些文件,问题仍然存在。

我非常感谢帮助,因为我被困在这里,我无法继续执行进一步的任务。

谢谢

0 投票
0 回答
1533 浏览

solr - #500 尝试通过提取将 PDF 添加到 Solr 索引时出现内部服务器错误

我是 Solr 的第一次用户,在 Windows 7 系统上使用 v3.5 和 Tomcat 7。我浏览了 example-docs 中的 XML 示例,没有任何问题。但是,我将需要对 HTML 和 PDF 文件进行提取,当我尝试发布 PDF 文件进行索引时,我得到以下信息:

我使用的命令是:

我的 solr 主目录是 C:\solr,到目前为止,我在其中完成了以下操作:

  • 复制 solr 下载包的 example/solr 文件夹的内容
  • 将solr下载包的contrib/extraction/lib文件夹复制到C:\solr\lib
  • 将solr下载包的dist/apache-solr-cell-3.5.0.jar复制到C:\solr\dist\apache-solr-cell-3.5.0.jar
  • 将 C:\solr\conf\solrconfig.xml 中相应的“lib”标签修改为<lib dir="lib" /><lib dir="dist/" regex="apache-solr-cell-\d.*\.jar" />

我还需要做什么才能使 PDF 和 HTML 文件正常工作?我已经阅读了多个教程和“入门”指南,但似乎无法理解出了什么问题。我也是一个 Tomcat 初学者,据我所知,这些都没有出现在 Tomcat 的日志中......所以我几乎被卡住了。同样,我对 XML 示例没有任何问题,因此 Tomcat 本身运行良好并且可以识别 solr(我可以看到 solr 管理页面)。任何帮助表示赞赏。

0 投票
1 回答
245 浏览

solr - 如何同时使用 lucene/solr 从数据库和 doc 文件中导入记录进行关联

我将二进制文档信息(文件元)存储在数据库中,并将二进制文档存储在文件系统中。使用文件名与数据库中的文件信息相关联。

现在我想将所有这些数据(二进制文档中的文件元和全文内容)导入 lucene solr。

lucene/solr 提供“使用数据导入处理程序 (DIH) 从数据库导入记录”。和“使用 Solr Cell (ExtractingRequestHandler) 索引 Word 和 PDF 等二进制文档。”分别导入这些数据。

导入后如何使用 solr/lucene 在二进制文档和文件元之间建立关联

谢谢

0 投票
4 回答
5500 浏览

solr - 通过 SolrCell 来自 Tika 的没有元数据的文本内容

使用 Solr 3.6 和 ExtractionRequestHandler(又名 Tika),是否可以将(PDF 的)文本内容映射到减去元数据的字段?不幸的是,Tika 生成的“内容”字段包含与文档的文本内容混在一起的所有元数据。

我想提供一些突出显示内容的片段,并且内容字段中的主题元数据会扭曲突出显示结果。

更新:由 Solr 索引的 Tika 输出的屏幕截图。突出显示的部分是作为文本块添加到 PDF 内容的元数据块。

tika 输出的 solr 屏幕截图

solrconfig.xml 中的 ExtractingRequestHandler:

Schema.xml 字段。注意“content”直接接收 Tika 的内容输出。当文档发布到处理程序时,“页面”和“集合”字段设置为文字值。

0 投票
2 回答
269 浏览

solr - 索引由solr中的空格分隔的文本文件的每个单词?

我在我的应用程序中实现 solr 3.6。因为我的文本文件中有以下数据..

**

date=2011-07-08 time=10:55:06 timezone="IST" device_name="CR1000i" device_id=C010600504-TYGJD3 deployment_mode="Route" log_id=031006209001 log_type="Anti Virus" log_component="FTP" log_subtype= "清理" status="Denied" priority=Critical fw_rule_id="" user_name="hemant" virus="codevirus" FTP_URL="ftp.myftp.com" FTP_direction="download" filename="hemantresume.doc" file_size="550k " file_path="deepti/virus.lnk 的快捷方式" ftpcommand="RETR" src_ip=10.103.6.100 dst_ip=10.103.6.66 protocol="TCP" src_port=2458 dst_port=21 dstdomain="myftp.cpm" sent_bytes=162 recv_bytes= 45 message="从服务器 ftp.myftp 下载大小为 550k 的文件 resume.doc。com 无法完成,因为文件感染了病毒 codevirus"

**

现在我想根据键值对拆分上述数据..并希望根据键对每个值进行索引..我希望更改应该在配置文件中..我已经通过 tokenizer 可以在其中 whitespaceokenizer工作。但希望整个结构被索引。所以有人可以帮我吗???谢谢..

0 投票
2 回答
1973 浏览

solr - 添加了我自己的参数的文件上传到 solr

我想上传一个文件(一些 ms word 文档)例如到 solr,但我想在这个上传中添加我自己的字段,比如上传它的人的 userId 或一些标签。文件的内容必须经过解析和搜索,并且应将 exta 参数添加为字段。因此,我在 schema.xml 中添加了以下定义

我的 solrconfig.xml 的相关部分现在看起来像这样:

但是,无论我使用此命令尝试什么组合:

或者

我不断缺少 documentId 的必填字段

问候罗纳德

0 投票
0 回答
176 浏览

solr - 使用 SolrCell 获取日期元数据

我正在使用 Solr 3.6 来索引许多不同类型的文档。我有几个字段定义了所有文档的公共信息,其中一个是“日期”(理想情况下是最后修改日期,只是表明文档的最新程度。)

尝试索引 .docx 和 .pdf 等富文本文档时出现了我的问题。我想使用从 ExtractingRequestHandler 获得的元数据来填写日期字段,但是存储我想要的日期信息的字段的名称对于每个文件都不同。有时我想要的字段是“日期”,有时是“last_modified”或“last_save_date”。我试图使用“last_modified”在处理程序中提供日期:

..但这导致日期是多值的(因为有“日期”元数据)或未定义的问题(因为不存在“last_modified”)。我研究了使用条件 copyFields 来尝试从这些字段中的至少一个中提取数据,但这似乎很复杂(即扩展更新处理程序)并且还需要我知道可能包含此日期信息的每个可能字段的名称。

有什么方法可以可靠地从我处理的每个富文本文档中提取日期?