问题标签 [solr-cell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - SOLR Cell 如何添加文档内容?
SOLR 有一个名为 Cell 的模块。它使用 Tika 从文档中提取内容并使用 SOLR 对其进行索引。
从https://github.com/apache/lucene-solr/tree/master/solr/contrib/extraction的来源,我得出结论,Cell 将提取的原始文本文档文本放入名为“内容”的字段中。该字段由 SOLR 索引,但不存储。当您查询文档时,“内容”不会出现。
我的 SOLR 实例没有架构(我保留了默认架构)。
UpdateRequestHandler
我正在尝试使用默认值(POST to )来实现类似的行为/solr/corename/update
。POST 请求如下:
以这种方式添加文档后,内容字段将被索引和存储。它出现在查询结果中。我不想这样;这是浪费空间。
关于 Cell 添加文档的方式,我缺少什么?
solr - 使用 solr cell/Tika 元数据导入文件会导致多值错误
所以我试图在 Solr 5.4.1 上使用 Solr CEL 和 Tika 索引文档。我使用的是默认配置,但是当我导入我的文档时,我收到了这个错误:
以下是与错误相关的日志,您可以看到我提供给 solr 的数据。
这是我提取模块的 solrconfig.xml:
我认为这基本上会将所有不是字段的内容标记为已忽略,因此不应导入元数据。我已经搜索了我的 solr 架构,但我没有声明元字段,因此我认为 CEL 会将其丢弃。
我正在使用 Solrj 导入文档。我还在文档中添加了很多文字。您可以在上面看到我以文字形式提供的数据。
为什么我看到这个错误?
我可以简单地让它只提取信息并将其放在文本字段中并让它以相同的方式处理 HTML 以解决此问题吗?
solr - Solr Cell 无法使用 EXIF 索引图像文件
我刚刚安装了 Solr6.6.0。在 CentOS 上并让它与提供的示例“sample_techproducts_configs”一起使用。我可以索引文件,但是一旦我将图像文件提供给它,我就会收到关于无效日期的异常。Solr 单元格从 EXIF 中提取日期,然后似乎无法将其传递给 Solr。我使用了以下图像文件:
http://www.imagemagick.org/Usage/photos/pagoda_sm.jpg
Solr 的响应是:
它抱怨的日期格式为yyyy-MM-dd'T'HH:mm:ss
,这应该是默认的日期格式,根据:
https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Solr+Cell+using+Apache+Tika
我正在寻找修复程序或至少是解决方法,因此它将跳过日期并仅索引 EXIF 中的其他信息。
solr - 从 Solr 6.3 升级后,Solr 7.5 无法索引 pdf 文件
我们刚刚从 Solr 6.3 升级到 7.5。在不更改架构或配置的情况下,我们尝试索引的几乎每个 pdf 文件都会收到 400 错误。这些是 Solr 6.3 索引没有问题的文件。所有其他类型的复杂文件都像以前一样被索引,只是导致问题的 pdf 文件。
线索 #1:在大约 1900 个 pdf 文件中,只有 2 个被成功处理。我们的大多数 pdf 文件都有主题和标题,但这两个没有。
线索 #2:在控制台日志中,我们看到如下失败消息:RequestHandlerBaseorg.apache.solr.common.SolrException: undefined field: "pdf_docinfo_title"
我在架构中找不到具有该名称的字段。对 pdf_docinfo_title 的谷歌搜索没有发现任何有用的信息。
solr - SOLR 单元格是否以任何方式限制导入 solr.TextField 的字符数量?
我正在使用带有 Windows 命令提示符的 curl 命令使用 Solr Cell 索引一个大型 HTML 页面,如下所示:
当我在 SOLR 的管理菜单中查询( query?q=*:*&q.op=OR&indent=true )时,我发现我的字段中缺少数据(文本) 。示例:我有一堆 lorem ipsum <p> 标签,但在我的 HTML 页面末尾附近我有另一个段落标签Hello world,这不会出现在 SOLR 管理中。
我在旧 wiki上找到了以下内容。
大型单个字段。
可以在一条记录中存储数兆字节的文本。这些字段使用起来很笨拙。默认情况下,存储的字符数被剪裁。
它没有详细说明如何防止文本被剪切,也就是说,如果这甚至是导致问题的原因,因为在剪切之前我什至无法在字段中获取 MB 值的数据。
架构.xml
solrconfig.xml
Solr 版本: 8.10.1