“solr-cell”的相关标签问题

0 投票

2 回答

1403 浏览

ruby-on-rails - 如何在 Solr Cell 中使用最新版本的 Sunspot gem？

我一直在尝试（徒劳地）让最新版本的 Sunspot gem（当前为 2.0.0.pre.111215，包含 Solr 3.5）与 Solr Cell 一起使用。

目前，我正在使用旧版本的 Sunspot 与以下插件提供的 Solr Cell - https://github.com/chebyte/sunspot_cell。

此配置的我的 Gemfile 如下；

不幸的是，这种较旧的 Solr/Solr 单元组合不适用于许多较新的 PDF 文件。Apache 推荐的解决方案是升级到两者的最新版本。

Sunspot Solr Cell 螺栓连接似乎没有得到很好的支持。最近更新的版本已从插件切换到 Gem，但我仍然无法让它与最新版本的 Sunspot Gem 一起使用。https://github.com/zheileman/sunspot_cell

有谁知道正确的 Gemfile 配置以使元素一起很好地发挥作用？我最接近的是这个。

当我运行任何 rake 任务时，我收到以下错误。

如果我暂时将 sunspot_cell gem 注释掉，我可以让 Rake 任务运行，但实际搜索会失败。

我已经尝试在这个 gem中手动使用 Solr jar 文件，而不是 sunspot_solr 中捆绑的那些，但也没有成功。

2012-01-20T14:06:32.003

0 投票

1 回答

722 浏览

pdf - 使用 Solr Cell 搜索索引 PDF 时没有结果

我已经使用 Solr 有一段时间了，我最近尝试了 solr-cell 组件并且我正在索引一些 PDF，但是我在这个线程中遇到了完全相同的问题。

当我在管理控制台中搜索 *:* 时，会列出 PDF。但是，当我在 PDF 中搜索内容时，我没有得到任何结果。

我已经尝试了那里给出的答案中的命令，但没有运气，我仍然遇到同样的问题，我尝试过不同的 Solr 版本（我使用的是 3.5 btw），不同的 PDF，我已经更改了架构中的字段.xml，我已经修改了 solrconfig.xml 中的 RequestHandlers，但似乎没有任何效果。任何帮助将不胜感激。

pdf solr solr-cell

2012-02-06T23:03:52.273

0 投票

1 回答

2244 浏览

solr - 使用 solrj 向 pdf 文件添加字段

我是 solr 的新手。我在使用 ContentStreamUpdateRequest 在 solr 中对它们进行索引时将字段/元数据添加到 pdf 文件时遇到问题。由于必须使用文字参数来添加字段，所以我尝试了以下操作：

pdf 文件在 solr 中被索引，但问题是并非所有字段都是使用文字创建的。以下字段已创建：

ID
姓名
类别。

虽然它不会创建像url_file或类似路径或位置的任何字段。*有时* 它不会创建字段Category。
根据我所经历的，可以使用文字参数创建任何随机字段来创建元数据。为什么总是创建像id或name甚至blah_s这样的字段但是当我尝试像上面提到的随机字段时，solr不创建？
我们是否也必须在其他任何地方声明这些随机字段？
任何帮助是极大的赞赏。
更新：调用方法 up.setParam("literal.myField") 不会修改 schema.xml 以创建新字段吗？

solr solrj solr-cell

2012-03-02T13:14:20.860

0 投票

1 回答

4803 浏览

solr - Apache Solr - 索引 PDF 文件

嗨，我已经尝试使用二进制发行版执行此操作，并自己编译了源代码。也尝试使用 Apache Tomcat 运行它。但是当我使用 pdf 文件进行索引时，我总是收到以下错误。我正在使用 Solr 示例项目中提供的 post.jar。

我也尝试在 Win 7 (JDK 1.7) 和 Centos (1.6) 上运行它。

我在互联网上搜索并在错误跟踪器上找到了 Jetty jar 文件的修补版本，但即使替换了这些文件，问题仍然存在。

我非常感谢帮助，因为我被困在这里，我无法继续执行进一步的任务。

谢谢

solr lucene solr-cell

2012-03-29T21:46:09.220

0 投票

0 回答

1533 浏览

solr - #500 尝试通过提取将 PDF 添加到 Solr 索引时出现内部服务器错误

我是 Solr 的第一次用户，在 Windows 7 系统上使用 v3.5 和 Tomcat 7。我浏览了 example-docs 中的 XML 示例，没有任何问题。但是，我将需要对 HTML 和 PDF 文件进行提取，当我尝试发布 PDF 文件进行索引时，我得到以下信息：

我使用的命令是：

我的 solr 主目录是 C:\solr，到目前为止，我在其中完成了以下操作：

复制 solr 下载包的 example/solr 文件夹的内容
将solr下载包的contrib/extraction/lib文件夹复制到C:\solr\lib
将solr下载包的dist/apache-solr-cell-3.5.0.jar复制到C:\solr\dist\apache-solr-cell-3.5.0.jar
将 C:\solr\conf\solrconfig.xml 中相应的“lib”标签修改为<lib dir="lib" />和<lib dir="dist/" regex="apache-solr-cell-\d.*\.jar" />

我还需要做什么才能使 PDF 和 HTML 文件正常工作？我已经阅读了多个教程和“入门”指南，但似乎无法理解出了什么问题。我也是一个 Tomcat 初学者，据我所知，这些都没有出现在 Tomcat 的日志中......所以我几乎被卡住了。同样，我对 XML 示例没有任何问题，因此 Tomcat 本身运行良好并且可以识别 solr（我可以看到 solr 管理页面）。任何帮助表示赞赏。

solr solr-cell

2012-04-12T04:02:52.440

0 投票

1 回答

245 浏览

solr - 如何同时使用 lucene/solr 从数据库和 doc 文件中导入记录进行关联

我将二进制文档信息（文件元）存储在数据库中，并将二进制文档存储在文件系统中。使用文件名与数据库中的文件信息相关联。

现在我想将所有这些数据（二进制文档中的文件元和全文内容）导入 lucene solr。

lucene/solr 提供“使用数据导入处理程序 (DIH) 从数据库导入记录”。和“使用 Solr Cell (ExtractingRequestHandler) 索引 Word 和 PDF 等二进制文档。”分别导入这些数据。

导入后如何使用 solr/lucene 在二进制文档和文件元之间建立关联

谢谢

solr lucene solr-cell

2012-05-03T12:41:19.080

0 投票

4 回答

5500 浏览

solr - 通过 SolrCell 来自 Tika 的没有元数据的文本内容

使用 Solr 3.6 和 ExtractionRequestHandler（又名 Tika），是否可以仅将（PDF 的）文本内容映射到减去元数据的字段？不幸的是，Tika 生成的“内容”字段包含与文档的文本内容混在一起的所有元数据。

我想提供一些突出显示内容的片段，并且内容字段中的主题元数据会扭曲突出显示结果。

更新：由 Solr 索引的 Tika 输出的屏幕截图。突出显示的部分是作为文本块添加到 PDF 内容的元数据块。

tika 输出的 solr 屏幕截图

solrconfig.xml 中的 ExtractingRequestHandler：

Schema.xml 字段。注意“content”直接接收 Tika 的内容输出。当文档发布到处理程序时，“页面”和“集合”字段设置为文字值。

solr apache-tika solr-cell

2012-06-04T21:43:37.577

0 投票

2 回答

269 浏览

solr - 索引由solr中的空格分隔的文本文件的每个单词？

我在我的应用程序中实现 solr 3.6。因为我的文本文件中有以下数据..

**

date=2011-07-08 time=10:55:06 timezone="IST" device_name="CR1000i" device_id=C010600504-TYGJD3 deployment_mode="Route" log_id=031006209001 log_type="Anti Virus" log_component="FTP" log_subtype= "清理" status="Denied" priority=Critical fw_rule_id="" user_name="hemant" virus="codevirus" FTP_URL="ftp.myftp.com" FTP_direction="download" filename="hemantresume.doc" file_size="550k " file_path="deepti/virus.lnk 的快捷方式" ftpcommand="RETR" src_ip=10.103.6.100 dst_ip=10.103.6.66 protocol="TCP" src_port=2458 dst_port=21 dstdomain="myftp.cpm" sent_bytes=162 recv_bytes= 45 message="从服务器 ftp.myftp 下载大小为 550k 的文件 resume.doc。com 无法完成，因为文件感染了病毒 codevirus"

**

现在我想根据键值对拆分上述数据..并希望根据键对每个值进行索引..我希望更改应该在配置文件中..我已经通过 tokenizer 可以在其中 whitespaceokenizer工作。但希望整个结构被索引。所以有人可以帮我吗？？？谢谢..

solr solr-cell

2012-06-26T12:33:29.373

0 投票

2 回答

1973 浏览

solr - 添加了我自己的参数的文件上传到 solr

我想上传一个文件（一些 ms word 文档）例如到 solr，但我想在这个上传中添加我自己的字段，比如上传它的人的 userId 或一些标签。文件的内容必须经过解析和搜索，并且应将 exta 参数添加为字段。因此，我在 schema.xml 中添加了以下定义

我的 solrconfig.xml 的相关部分现在看起来像这样：

但是，无论我使用此命令尝试什么组合：

或者

我不断缺少 documentId 的必填字段

问候罗纳德

solr solr-cell

2012-08-06T12:55:05.067

0 投票

0 回答

176 浏览

solr - 使用 SolrCell 获取日期元数据

我正在使用 Solr 3.6 来索引许多不同类型的文档。我有几个字段定义了所有文档的公共信息，其中一个是“日期”（理想情况下是最后修改日期，只是表明文档的最新程度。）

尝试索引 .docx 和 .pdf 等富文本文档时出现了我的问题。我想使用从 ExtractingRequestHandler 获得的元数据来填写日期字段，但是存储我想要的日期信息的字段的名称对于每个文件都不同。有时我想要的字段是“日期”，有时是“last_modified”或“last_save_date”。我试图使用“last_modified”在处理程序中提供日期：

..但这导致日期是多值的（因为有“日期”元数据）或未定义的问题（因为不存在“last_modified”）。我研究了使用条件 copyFields 来尝试从这些字段中的至少一个中提取数据，但这似乎很复杂（即扩展更新处理程序）并且还需要我知道可能包含此日期信息的每个可能字段的名称。

有什么方法可以可靠地从我处理的每个富文本文档中提取日期？

solr metadata apache-tika solr-cell

2012-09-27T20:46:59.767

问题标签 [solr-cell]

Reference