问题标签 [solrcloud]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - SolrCloud 插入/更新文档
目前我正在使用 solrcloud 开发一个搜索应用程序。我已经测试了我正在寻找的 solrcloud 的许多功能。我想知道,如果我使用 solrj 客户端(任何风味 Http、嵌入式、云 ...)或直接使用 lucene API 将插入/更新/删除到云中为 solrcloud 中任何服务器的索引目录,solrcloud 会将此更改分发到云中的所有节点吗?
solrcloud 是否能够检测到对其索引所做的这些更改?(因为我没有使用 REST API)
谁能解释一下,会很有帮助
谢谢
solrcloud - shards 如何在 solrcloud 中了解彼此?
如果我们用 2 个分片启动 SolrCloud。通过哈希函数算法(Murmur),文档分布在 2 个分片上。据称,我们可以将查询发送到任何一个核心,并且它将转到写入分片,因为分片彼此了解。我想知道他们是怎么认识彼此的?
java - 提高 Solr 查询超过 1600 万条推文的速度
我使用 Solr (SolrCloud) 来索引和搜索我的推文。大约有 1600 万条推文,索引大小约为 3 GB。推文在出现时会被实时索引,以便启用实时搜索。目前我使用lowercase
字段类型作为我的推文正文字段。对于搜索中的单个搜索词,大约需要 7 秒,并且随着每个搜索词的添加,搜索所花费的时间线性增加。3GB 是为 solr 进程分配的最大 RAM。示例 solr 搜索查询如下所示
关于提高搜索速度的任何建议?目前我只运行 1 个包含整个推文集合的分片。
solr - 用于复杂查询性能优化的 Solr 分片
对于高负载站点,我有大约 100 万个文档的相对较小的索引。我正在对它运行相对复杂的函数查询,性能是不可接受的。所以我对将当前的主+从拓扑移动到具有至少 3 个分片和 n 个副本的 SolrCloud 犹豫不决,因此所有函数查询都将分布在分片上,响应时间应该至少小 3 倍加上合并结果集的占用空间小(是是真的?)。所以我的问题是值得分片(并增加复杂性)来解决性能问题而不是索引大小问题(分片索引的最常见原因)。
tomcat - 如何在 solrconfig.xml 中指定分片编号/zookeeper 路径?
在 solr 4教程示例中显示我可以从 start.jar 启动 solr。
我想从 war 文件中的 tomcat 启动它(我已经配置了 initctl 守护程序,所以它会更容易和更稳定),因此我必须在配置文件 solr.xml 或 solrconfig.xml 的某处指定这些云参数。我怎样才能做到这一点?
solr - Solr 云索引挂起
我现在正在使用 solrcloud,但我面临一个可能导致索引进程挂起的问题。
我的部署只有一个集合,有 5 个分片在 5 台机器上运行。每天我们都会使用 dataimporthandler 做一个完整的索引,它有 5000 万个文档。我们使用 solrcloud 的分布式索引在 5 台机器中的一台上触发索引。
我发现,有时 5 台机器中的一台会死机,原因是
我检查了索引目录,它确实不包含 _31xu.fnm。我想知道分布式索引中是否存在一些并发错误?
据我所知,分布式索引是这样工作的。您可以将文档发送到任何分片,文档将根据哈希 id 纠正分片。并且 dataimporthandler 将使用 updatehandler 将文档转发到正确的分片。最后文档将通过 DocumentsWriterPerThread 刷新到磁盘。我想知道从分片触发的索引发送的更新请求太多导致了问题。我的猜测是基于我在机器上发现的 whild dead 有很多索引段,而且每个索引段都非常小。
我对solr不太熟悉,可能我的猜测根本没有意义,有人有什么想法吗?谢谢
search - 带有 edismax 的 RequestHandler 忽略同义词和停用词
我在我的中定义了以下查询solrconfig.xml
:
它工作得很好,但是,它只是忽略了我的停用词和同义词文件。
我不明白发生了什么,也不知道如何解决它。有什么帮助吗?
编辑
solr - Solr 云结果分组
我有一个包含很少索引字段的 solr 架构
现在我有不同类型的产品,它们以“类型”字段区分。我希望每个搜索请求最多 50 个搜索结果。但结果应包含每种类型的至少 5 个产品,如果它们是搜索的一部分。假设我搜索计算机硬件商店产品,我的搜索结果应包含 5 个 HDD,5 RAM、5 个 CPU、5 个主板等,如果这些产品是搜索的结果。
如果某些产品类型的总返回行数少于 5,则包括可用的行数。
我尝试过方面查询和聚类,但未能成功。
有任何想法吗 ?如何做到这一点?
solr - 使用 CloudSolrServer 作为 SolrJ 客户端
我的问题是当我们使用 CloudSolrServer 时,我们指定了单个 zkHost 地址和 LBHttpSolrServer。现在 CloudSolrServer 确实从 zookeeper (zkHost) 中提取有关活动和死节点的信息并为请求提供服务。但是,如果 zkHost 指定为它自己的参数怎么办?我认为 CloudSolrServer 应该接受一个以上的 zkHost,就像 LBHttpSolrServer 一样,它接受一个以上的 solr 服务器 url。
任何的想法 ?谢谢
resources - apache zookeeper 询问服务器内存
是否可以使用 zookeeper 来监控服务器资源或检索代表可用总 RAM 的数字?