“solr-cell”的相关标签问题

0 投票

1 回答

1193 浏览

solr - 使用 solr 的提取功能时，如何将数据添加到动态字段？

我正在使用一个名为 solr-php-client (http://code.google.com/p/solr-php-client/) 的 PHP 库与我的 Solr 服务器进行交互。我可以从文档中提取数据、存储它并在其上搜索，但我似乎无法让它允许我将自己的数据添加到索引参数中：

我可以查询“文本”并获得结果：

但我无法查询任何动态字段，即“SS_Stage_ms”：

以下是适用的架构定义：

2011-10-13T15:06:19.657

0 投票

1 回答

5393 浏览

drupal - 让 ExtractingRequestHandler 在 Solr 中工作

我正在尝试让 Solr 与 Tika 一起工作，这样我就可以在我的 Drupal 网站中索引 Word 和 PDF 文档。

我查看了Wiki 页面和此页面，它们表明在 solrconfig.xml 中添加了 requestHandler。

我这样做了，现在 Solr 抛出了一个异常：

org.apache.solr.common.SolrException：加载类“org.apache.solr.handler.extraction.ExtractingRequestHandler”时出错

我进行了一些搜索，发现其他人遇到了这个问题，但没有简单的解决方法。我在Windows Server 2003上使用Solr 3.4.0。关于如何解决这个问题的任何想法？

附带说明一下，我已经让 Drupal 使用 Solr 进行搜索，这很有效。但是我不能让 Solr 索引 PDF 和 Word 文档。我确信这是大多数网站的共同需求，但我已经为此花费了数天时间，我无法相信它的文档记录很差，而且很难弄清楚。

drupal solr apache-tika solr-cell

2011-10-27T15:56:52.317

0 投票

1 回答

469 浏览

ruby-on-rails - 如何使用 rsolr 上传文件？

我有一个文件需要在我们的 solr 服务器上建立索引。如何上传文件？我知道如何使用 curl： curl "http://localhost:8983/solr/update/extract?literal.id=doc1&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@tutorial.html"

（来自http://wiki.apache.org/solr/ExtractingRequestHandler）但我不知道如何将其翻译为 rsolr rubygem。

提前致谢。

ruby-on-rails ruby apache-tika solr-cell rsolr

2011-11-07T14:15:40.037

0 投票

1 回答

1596 浏览

solr - Solr ExtractingRequestHandler pdf文本提取

我对 Solr 的 pdf 文本提取有疑问。Solr 使用 Apache Tika 来提取 PDF 文件的文本，而 tika 使用 PDFBox 来提取文本。当我将我的 PDF 文件发送到 Solr 时，它会成功提取文本，但文本完全混乱。类似的东西

MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht

但是，当我使用以下命令在命令行中直接使用 PDFBox 提取相同的 PDF 文件时，我会得到一个不错的结果。

java -jar pdfbox-app-1.6.0.jar ExtractText -console test.pdf

我不知道 solr 使用哪个 Tika 版本或更好的 PDFBox 版本。我什至在 solr 战争文件中找不到该库... lib 目录中的所有库如下：

如果有人知道解决方案，我会非常高兴。

solr pdfbox apache-tika solr-cell

2011-11-07T20:28:06.243

0 投票

0 回答

872 浏览

solr - 在 SOLR 中映射字段以进行分面

我正在使用 SOLR 3.4 将富文本文档索引到 SOLR 3.4 中ExtractingRequestHandler，但我无法让它表现得像我想要的那样。

我想将创建日期存储为稍后用于分面搜索的字段，并在中定义了以下内容schema.xml：

我这样索引：

我得到了动态字段attr_creation_date（其他规则确保），但我没有得到creation_date. 我也没有成功地尝试过这样使用copyField：

另一个尝试是把它放进去solrconfig.xml，但没有运气：

我很确定我在这里遗漏了一些基本的东西。非常感谢任何帮助！

ExtractingRequestHandlerin 的设置solrconfig.xml：

我的schema.xml文件（很多默认的东西）：https ://gist.github.com/1358002

solr lucene full-text-search apache-tika solr-cell

2011-11-11T12:07:57.697

0 投票

1 回答

729 浏览

solr - 导入富文档时是否有 SOLR 的最佳实践 schema.xml？

我正在与 SOLR 合作一个项目，我们在该项目中导入一堆（约 40k 项）丰富的文档，主要是 MS Word、Powerpoint、Excel 和 PDF。

使用 SOLR 时是否有最佳实践schema.xml和/或solrconfig.xml在 SOLR 中使用ExtractingRequestHandler？

我一直在对默认模式进行调整，以尝试让构面在日期修改时间上起作用，但即使没有，我认为当 Tika 的默认输出足够时，很可能存在一个很好的例子来说明这些文件应该如何。

如果没有最佳实践之类的东西schema.xml和/或solrconfig.xml我也对好的例子感兴趣，最好来自现有的开源项目，甚至是好的博客文章。

欢迎任何指点！

solr lucene full-text-search apache-tika solr-cell

2011-12-05T23:31:21.150

0 投票

3 回答

2774 浏览

solr - NoClassDefFoundError MimeTypeException 与 PDF 提取

我在尝试对 PDF 文件使用更新/提取时遇到异常

我的设置是：- Ubuntu Server 11.10 Tomcat 6 Solr 3.5.0.2011.11.22.15.54.38

我可以浏览到 solr/admin OK

我已将所有 contrib/extract 和 apache-solr-cell3.5.0.jar 库放入 tomcat 文件夹 webapps/solr/WEB-INF/lib

我正在使用以下方法调用提取物：-

错误是

将不胜感激任何指针 - 这个错误似乎出现在其他地方的唯一一次是 Nutch 和缓存的结果。

我尝试在查询字符串和 *.doc 文件中发送 mimetype，但遇到了同样的错误。

solr apache-tika solr-cell

2011-12-09T11:39:22.500

0 投票

2 回答

1247 浏览

solr - ExtractingRequestHandler - 你如何发布多值文字字段？

我正在尝试发布一个文字多值字段以及 PDF 提取。似乎只有一个字段值被添加到索引中。这需要以不同的方式传递吗？

当前发送等价物（通过 POST 值）：

solr apache-tika solr-cell

2011-12-15T17:07:56.090

0 投票

2 回答

1428 浏览

solr - Tika Solr 元数据映射忽略文档标题

我有以下 solr 的配置文件：

这是我的架构：

我想设置title自己。但是 Tika 一直在设置它自己的title（这就是我multiValued="true"临时设置的原因），我觉得这很奇怪，因为我必须手动映射像stream_sizeand之类的东西content_type。

有什么办法可以解决这个问题？

我希望 Tika 覆盖title我分配的内容，如下所示：

我有 3 个文档，其中一个，Tika 没有提取 a title，在这种情况下，我有我自己的标题，我设置为 pass literal.title，当 Tika 提取 a 时title，我希望它覆盖我传入的那个literal.title。这可能吗？

solr metadata apache-tika solr-cell

2011-12-21T17:58:16.797

0 投票

0 回答

326 浏览

java - Solr 获取文档的段落

我已经使用 solr 工作了几天，我需要将文档拆分为多个段落，然后搜索每个段落。我尝试了很多东西，但 solr 只是不想正确捕获段落；它要么什么都不捕获，要么将所有内容都捕获为一个大文本。我试过了：

无论我尝试什么组合，它总是会得到错误的结果。有谁知道如何获取段落并使它们易于使用？我正在编写一个插件，它执行基于基本查询的摘要，并且应该检索具有关于查询的最多信息的段落，但我只是不知道如何获取这些段落。

谢谢！

java solr solr-cell

2011-12-31T13:40:06.700

问题标签 [solr-cell]

Reference