问题标签 [solr4]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tomcat7 - SOLR 4.1 内存不足错误提交数千个 Solr 文档后
我们正在使用以下选项测试在 tomcat 7 和 java 7 中运行的 solr 4.1
JAVA_OPTS="-Xms256m -Xmx2048m -XX:MaxPermSize=1024m -XX:+UseConcMarkSweepGC -XX:+CMSIncrementalMode -XX:+ParallelRefProcEnabled -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/home/ubuntu/OOM_HeapDump"
我们的源代码如下所示:
“getNextSolrInputDocument()”方法生成一个包含 100 个字段(平均)的 solr 文档。大约 50 个字段属于“text_general”类型。一些“test_general”字段由大约 1000 个单词组成,其余由几个单词组成。在总字段中,大约有 35-40 个多值字段(不是“text_general”类型)。
我们正在索引所有字段,但仅存储 8 个字段。在这 8 个字段中,两个是字符串类型,五个是长字段,一个是布尔值。所以我们的索引大小只有 394 MB。但是 OOM 时占用的 RAM 大约是 2.5 GB。为什么即使索引大小很小,内存也如此之高?内存中存储的是什么?我们的理解是,每次提交后,文档都会刷新到磁盘。因此,提交后不应在 RAM 中保留任何内容。
我们正在使用以下设置:
在提交大约 3990 个 solr 文档后,我们得到 Java heap Out Of Memory Error。一些来自分析器的内存转储快照已上传到以下链接。
http://s9.postimage.org/w7589t9e7/memorydump1.png
http://s7.postimage.org/p3abs6nuj/memorydump2.png
有人可以建议我们应该做些什么来最小化/优化我们案例中的内存消耗,原因是什么?还建议遵循 solrConfig.xml 参数的最佳值和原因
-
- useColdSearcher - 真/假?
- maxwarmingsearchers- 数字 - 拼写检查开/关?
- 省略规范=真/假?
- 省略TermFreqAndPositions?
- 合并因子?我们使用默认值 10
- java 垃圾收集调整参数?
solr - Solr4.1 上的 CopyField 问题
我正在使用 Solr 3.6.1,我很满意。现在我想继续使用 solr4.1。因此,我采用了“schema.xml”和“solrconfig.xml”(稍作改动)并将它们放在我的新 solr4.1 配置下。索引成功(DIH)。但是,我注意到了一个问题。在“schema.xml”中,我有“copyField”指令,以便使用不同的“类型”索引相同的字段。当我尝试在 solr4.1 上使用相同的配置进行索引时,索引大小是 solr3.6.1 上索引大小的一半(当我查询时,我得到不同的结果)。Solr4.1 有什么变化吗?我需要一点帮助。
schema.xml:
solrconfig.xml
问候,
汤姆
solr - xml 文件的 DIH(数据导入处理程序)在 Solr4 中不起作用
我已经在服务器上安装并配置了 Solr4 和 tomcat6。它工作得很好,但是当我尝试构建 DIH(数据导入处理程序)时,它给了我一个错误,我无法解决。
我将以下代码添加到我的 solrconfig.xml 文件中
我的 data-config.xml 文件如下所示
当我点击 localhost:8080/solr/ 时我在浏览器上遇到 的错误我的错误日志中的错误是
你能建议我如何解决这个错误?
solr - 索引期间的Solr连接超时?
我有无限超时的 solrj 客户端(Solr4)
当我索引我的数据时,我在服务器端有很多超时。我在哪里可以更新 solrconfig.xml 或可能的 tomcat 配置中的服务器端超时?
客户端异常:
服务器端异常:
solr - 如何在 SOLR 中索引 .html 文件
我要做索引的文件存储在服务器上(我不需要爬)。/path/to/files/ 示例 HTML 文件是
我在 solrconfing.xml 文件中添加了请求处理程序。
我的 data-config.xml 看起来像这样
我保留了默认的 schema.xml 文件并将以下代码添加到 schema.xml 文件中。
当我在设置后尝试进行完全导入时,它显示所有 html 文件都已获取。但是当我在 SOLR 中搜索时,它没有显示任何结果。任何人都知道可能是什么原因?
我的理解是所有文件都正确提取但未在 SOLR 中编制索引。有谁知道如何在 SOLR 中索引 HTML 文件的元标记和内容?
您的回复将不胜感激。
solr - 无法用 solr4 配置 Tika1.2
我正在尝试使用 TikaEntityProcessor 来索引 .html 文件内容。不知何故,我无法正确获得它。我检查了错误日志并收到以下错误。
我的 data-config.xml 文件如下:
我在 solrconfig.xml 中添加了以下代码
我保留了默认的 schema.xml 文件并在该文件中添加了以下代码。
谁能告诉我我在这里想念什么?或者为什么我会得到错误?以及它的解决方案是什么。
solr - 在多值字段上使用 Solr4 的自动完成功能
我看过关于跨多个字段执行自动完成但没有在多值字段上执行自动完成的帖子。
我的自动完成功能适用于非多值字段。
我的问题是,当我在多值字段上运行查询时,只要文档与该查询匹配,则该文档的多值字段中的所有字段都会在构面结果中返回。
下面是我的架构,类似于 Solr 4 Cookbook 中提出的架构。
如您所见,publisherText 是一个多值字段。我执行这样的查询来测试自动完成功能:
查询是“新的”,它匹配一组文档。但是,构面结果集包含每个匹配文档的其他 publisherText 值(包含在多值字段中)。
更新:查询“new”时,结果集应包括“New York Times”和“Times New Roman”但不需要解决中缀问题:“Knewton Gazette”不需要在结果集中。
有没有办法让构面结果只包含与查询匹配的值?或者是否有不同的(更好的?)方式来支持更优雅地处理多值字段的完整自动完成功能?
谢谢。
solr - 如何从 HTML 文件中提取元标记并在 SOLR 和 TIKA 中对其进行索引
我正在尝试提取 HTML 文件的元标记并将它们索引到具有 tika 集成的 solr 中。我无法使用 Tika 提取这些元标记,也无法在 solr 中显示。
我的 HTML 文件看起来像这样。
我的 data-config.xml 文件看起来像这样
在我的 schema.xml 文件中,我添加了以下字段。
在我的 solrconfing.xml 文件中,我添加了以下代码。
谁能知道如何从 HTML 文件中提取这些元标记并在 solr 和 Tika 中对它们进行索引?您的帮助将不胜感激。
solr - 类别/子类别的 Solr 分组
我仍然是 Solr 领域的新手。
我正在尝试创建一个按类别分组的查询,返回一个唯一的子类别列表。我的架构看起来类似于以下内容:
我有兴趣获得类似于以下内容的回报,但不确定如何完成。我几乎可以到这里,但问题是我无法让 sub_category 列返回唯一值。下面的示例确实说明了不同的子类别:
solr - Solr4 目前只查看默认的“df”字段,我们如何搜索多个字段?
在 Solr 4 中,我看到我们在/select
请求处理程序中配置了默认字段“df”:
但是id
是我们唯一的文档字段,所以所有查询都默认为“id:my_query”,它总是返回 0 个结果。
如何定义默认查询哪些字段?
这是从 v3 到 v4 的升级,这部分似乎在此过程中被破坏了。