“solr-cell”的相关标签问题

0 投票

1 回答

481 浏览

solr - 有没有办法将 spring-data-solr 与 Tika 集成？

有没有办法通过配置将 spring-data-solr 与 Tika 一起使用？ContentStreamUpdateRequest+addfile否则，对于 spring-data-solr的 solrj 是否有一些替代方案？

目前我以这种方式使用 Solrj + Tika：

我通过成功遵循此ExtractingRequestHandler指南得出了这种方法。

使用 solr 4.3.0，是否可以通过获得相同的结果spring-data-solr，而不必直接调用 Solrj？

2014-02-14T19:57:23.093

0 投票

1 回答

478 浏览

solr - Solr ExtractingRequestHandler 在链接中提取“rect”

我正在利用 solr ExtractingRequestHandler 来提取和索引 HTML 内容。我的问题在于它产生的提取链接部分。返回的提取内容在 HTML 源中不存在的地方插入了“rect”。

我的 solrconfig 单元配置如下：

我的 solr schema.xml 带有以下 etnries：

我将以下 HTML 发布到 sorl 单元格：

Solr 具有以下索引：

注意每个链接之间的“矩形”。为什么 solr cell 或 tika 插入这些？我没有定义要使用的 tika 配置文件。我需要配置 tika 吗？

solr apache-tika solr-cell

2014-03-04T17:21:58.657

0 投票

1 回答

981 浏览

solr - 在 solr 中索引 .xml 文件时出错

我正在尝试使用以下命令在 solr 搜索引擎中索引 xml 文件：

但我收到以下错误：

请帮助我摆脱这个错误。solr.xml的内容如图：在此处输入图像描述

solr solr-cell

2014-03-21T06:45:09.923

0 投票

1 回答

87 浏览

solr - Solr 搜索引擎的结果

当我在 solr 搜索引擎的查询框中编写一些查询并询问结果时，它显示找到了一些文档（numFound），但每页仅显示十个文档。如何查看进一步检索的文档。没有像“下一页”或其他东西这样的链接。请告诉我如何查看前十个文件之后的文件

solr solr-cell

2014-04-02T06:37:27.533

0 投票

5 回答

1126 浏览

solr - 我们可以在 Solr 搜索引擎中搜索 .txt 文件吗？

我在文档检索中将 solr 搜索引擎用于我的项目目的。我的数据集是 .txt 文件格式。但 solr 仅提供 json、xml、pdf 和其他一些文件格式的选项。文本文件没有选项。
我是否需要对 solr 进行一些修改才能将 .txt 文件用作数据集？

solr solr-cell

2014-04-04T16:14:04.417

0 投票

1 回答

356 浏览

solr - Solrj ContentStreamUpdateRequest fails to save all literal fields unless they are dynamic

I am using the Extracting Request Handler to index html and pdf files. Along with what tika finds I want to add metadata above and beyond content from tika. To do this I use the literal.= support. Unless I use dynamic fields "*_s" the data is not saved. Only the id field seems to work as advertised. I'm sure that I'm doing something wrong. My schema.xml field definitions:

My Solrj code:

Changing region to region_s, href to href_s and adding _s to the key value in the map, works. I don't understand why region etc don't get saved unless it's matching the *_s dynamic field in the schema. I noticed a few other issues. I tried to use a copyField to move one of the literal fields to a field for faceting, I never see any data in the facet field. Here are some of the ways I tried this

There is never anything in services_facet. I can facet on services_s but shouldn't this work? Is Solr-Cell broken or just poorly documented?

solr solrj solr-cell

2014-06-02T14:59:34.647

0 投票

0 回答

812 浏览

java - 如何删除使用 Solr 从 Word 文件中提取的文本中的大量“\n”？

当我使用 Apache Solr 4.9（solr 单元）索引 .docx 文档时；它提取带有很多“\n”的文本，有没有办法清理字段内容或删除“\n”？

字段内容如下所示：

这是代码，我正在使用 SolrJ、java、tomcat 8、Apache Solr 4.9，我还尝试修改 schema.xml，在标记器上使用正则表达式将“\n”替换为“”（空白），还有另一个方式，但是没有任何东西使它起作用

代码在这里：

java solr indexing solrj solr-cell

2014-08-26T02:24:20.717

0 投票

0 回答

267 浏览

solr4 - Solr：在字段上执行词干提取并获得最常用词干词的排序列表

有没有一种方法可以在索引时对字段使用词干提取，然后在查询时根据词干词的原始出现频率检索词干词的排序列表。

例如，假设我的“文本”字段包含文档内容并且仅包含以下单词：

走走走动跑跑。

我想在这个字段上使用词干来获取按其原始单词的出现排序的基本形式，即

走走走走

我的理解是 solr 使用词干来减少步行，步行和步行到一种基本形式步行，然后将其存储在索引中。我对检索计数不感兴趣，而只是检索单词列表。solr 是否在索引时跟踪此类字数？这是我的配置：

我的schema.xml有文本字段：

和

字段类型“text_general”定义为：

感谢帮助。

solr4 stemming word-frequency solr-cell

2014-11-17T19:30:04.303

0 投票

1 回答

1657 浏览

solr - 将 Apache TIKA 和 Solr Cell 与 Solr 集成以索引 pdf 和 word 文档

我正在做一个 POC 来使用 solr 搜索引擎索引 pdf 和 word 文档。我试图搜索详细级别的信息或文章，但没有找到任何详细的文章来做到这一点。我发现是使用一些 solr 包提供的示例。那不是我要求的。

我目前掌握的信息是可以使用 Solr Cell 和 Apache Tika 来索引 pdf 文档。

从一些 stakeoverflow 中我找到了链接http://wiki.apache.org/solr/ExtractingRequestHandler但它不是教程或有步骤来做我想做的事。另外，我想使用 solrnet 从 .net 应用程序调用 solr。

我正在使用 Solr 5.1 版本。

我提供了从 solr 参考文档中运行的示例代码，如下所示

它启动了带有 techproducts 核心的示例 solr 实例。之后，我运行以下命令来索引 pdf 文档。

它工作得很好。

之后，我从 tomcat 托管的 solr 服务器创建了新核心，并尝试运行相同的 curl 命令和接收器错误。我在 solrconfig.xml 中添加了以下请求处理程序代码

脚本：

错误：

我错过了什么吗？

solr solrnet apache-tika solr-cell

2015-04-28T11:16:09.333

0 投票

3 回答

506 浏览

pdf - Solr ExtractingRequestHandler 给出空的内容字段

我正在使用Solr 6.2.1和 ExtractingRequestHandler（已包含在 Solr 6.2.1 中）来索引 pdf 和 word 文档。所有文档（pdf 和 word）都使用元数据（标题、日期、cp_revision、公司...）进行索引，但内容字段始终为空。

根据文档，我应该有一个非空的内容字段：“Tika 将所有提取的文本添加到内容字段。”

有谁知道为什么内容字段是空的？根据这篇帖子的回答，这可能是因为我以非二进制模式打开文件，但如何以二进制模式打开文件？

这是我的solrconfig.xml文件：

pdf solr ms-word apache-tika solr-cell

2016-10-20T14:38:16.523

问题标签 [solr-cell]

Reference