问题标签 [solr-schema]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
performance - 在 Solr 索引字段名称中使用唯一标识符
我的文档中有以下结构:
文档:1
文档:2
其中uuid
文档根代表客户标识符,嵌套对象代表客户下的订单。
我关心的唯一查询是通过客户标识符和订单标识符的单个字段进行简单查询,以查找他们的订单:
或特定的:
问题。可以定义dynamicField
客户标识符吗?从性能的角度。在这种情况下,我最终会得到特定模式的数十万或数百万个字段。
我知道如果我在单个查询中使用许多索引字段会对性能和内存消耗产生影响,因为 Lucene 会为我查询或排序的每个字段创建一个包含每个文档的一个项目的数组。但是,如果有数十万或数百万个字段,我会同时查询其中一个,这会不会有问题?
如果没有,有什么更好的解决方案?
谢谢。
更新:更新的查询示例。添加了过滤器、排序和限制。以防万一。
solr - 如何在 Apache Solr 中使用首字母缩略词?
我使用text_general
Solr 提供的配置字段来存储网页内容,如下所示:
场地:
说,在synonyms.txt
我有一个条目:
content
如果我在我的数据上执行搜索,q=content:ABC
其中我没有任何内容与“ Apple Ball Company
”一起。
我得到了所有单词的突出显示片段Apple
,Ball
并且Company
在我content
包含的这些单词中,这些单词的顺序不同,甚至没有一起出现。
我只想突出显示首字母缩写词ABC
和/或仅用于扩展“ Apple Ball Company
”(如果这些词以相同的顺序组合在一起)。
solr - 将 docValues 与动态字段 solr 一起使用
我有一个 solr Field 作为 -
问题是这个字段在使用 solrJ 获取数据时花费了太多时间。
我想把这个字段设置为 - stored="false" docValues="true"
。
Solr 没有抛出任何错误,并且数据被正确索引。
该领域的可用性 -
- 此字段没有排序/分面。
- 仅使用显示值。
我想使用 solrJ 更快地获取数据。我无法找到任何有关是否stored=true
或multivalued=true
有助于性能的适当文档。
我知道 solrJ 对stored=true
.
任何人都可以请指导一下。
solr - Solr 6 同义词相关性评分
我一直在 solr 6 中试验同义词。我在开始之前阅读的内容指出了查询时间和索引时间同义词的一些差异。主要区别在于 IDF 值,同时在索引时间和查询时间合并同义词。在我的实验中,我发现两种模式下的相关性计算没有区别。索引时间和查询时间同义词中的词频和 IDF 值保持不变。我正在使用 solr SynonymGraphFilterFactory 而我没有使用多术语同义词。我想知道这两种模式下一个术语的 IDF 值计算有何不同?
solrcloud - solr.KeywordTokenizerFactory 不适用于通配符和空格
我的 schema.xml 具有以下字段类型:
以下数据存在于其中一个方面(不带双引号):pub_title:"Current Concept on the Classification and Treatment of Spondylolistes"
我在 q 的 solr 查询控制台上触发以下查询,但没有得到任何结果:
当我尝试使用下面的 q 参数进行搜索时,它可以工作,但搜索操作需要两倍的时间:
我想要一个完整的字符串(不带双引号)“当前关于脊椎滑脱分类和治疗的概念”的方面。我还需要强调这个领域。
我尝试使用solr.StandardTokenizerFactory
,但方面已被标记化。
请让我知道我哪里出错了。
谢谢, 普拉内
apache - 将索引从 Solr 导出到文件,其中字段对于 FieldCache 是非法的
我正在尝试将 Solr 索引导出到 JSON 文件。但是,在我关心的 2 个字段中,其中一个 (field A
) 是multivalued
,另一个 (field B
) neither indexed nor has doc values
(该字段可能缺少架构)。两者都导致错误说can not use FieldCache on a field which is ...
这些字段的模式位于远程服务器上,不应更改。那么是否可以使用这些字段导出索引?谢谢!
ps 如果可能的话,我也想fl
在这两个字段上,因为它们是我所需要的。
solr - Solr Cloud:如何将文档(pdf、office)元数据禁用为字段
我是 Solr 的新手,在 solr 云模式下使用 Solr 7.3.1 并尝试在 solr 中索引 pdf、office 文档,在 solr 中使用 contentextraction。
我创建了一个集合
bin\solr create -c tsindex -s 2 -rf 2
在 SolrJ 我的代码看起来像
我遇到了多个问题
虽然我在 Solr Admin UI 中创建了字段
ts_ref
,text_general
但根本没有设置此字段。我的目标是在一个字段中索引完整的文档,包括其元数据,然后在另一个系统中设置多个引用文档的字段,例如 ts_ref 字段。但实际发生的是 solr 提取文件的元数据并为每个元数据值创建单独的文件。
我试过 data driven schema functionality
禁用bin\solr config -c tsindex -zkHost localhost:9983 -property update.autoCreateFields -value false
当我solrRequest.setParam("defaultField", "text");
从一开始就取消注释行时,提取的所有元数据都没有单独的字段,但是一旦我注释了这一行并上传文件,元数据就会再次出现在单独的字段中(即使我再次取消注释)。
php - Solr 短语搜索需要匹配部分单词
使用 Solr 搜索英语和韩语的文档,到目前为止韩语搜索工作正常。也需要扩展英语精确短语以匹配部分单词。
我使用的 Solr 查询:
与他去、他去、他目标等不匹配。
我试过这样但没有奏效
当前字段架构
所以我的输入和预期输出如下所示:
输入:他走了(带引号)
输出:他走了,他走了,他的目标(应该与具有这些词的文档匹配,可以是部分匹配)
我怎样才能实现这个功能,任何建议都非常感谢。
solr - 自动建议/自动完成不起作用 - Solr
我正在使用 SOLR 自动完成功能。但它不适用于“口头”关键字。
以下是架构中的字段详细信息 -
为什么当我输入“ora”时自动提示不显示“oral”?我能够返回相同关键字“口头”的结果。请建议。