我试图弄清楚是什么阻碍了索引速度。我正在从 pdf 中提取文本以将每个页面单独索引到 solr 以获取页面命中结果。
我在每个“文档”之后都使用了提交。然后我注意到每次我使用提交时它都会花费大量时间来重建索引。
现在我用这个:
<autoCommit> <maxDocs>10000</maxDocs> <maxTime>60000</maxTime> </autoCommit>
每分钟获得一次提交。
但后来我计算并发现它索引了大约30 个“文档”(作为 solrDoc 的页面)/秒或 10 个真实文档/秒。与其他设置相比,这似乎相当慢。
我怎样才能提高我的速度?
额外信息:(如果需要,请索取)
我的文档包含 7 个字段。(1 个内容字段与页面上的文本)
我使用Solrj将文档添加到 solr。
我正在使用示例配置,因为我没有 Solr 的高级知识
pc intel core i7 2600+16Gb ram+ssd(这是一台开发计算机,不是最终服务器,但它应该很快)使用的 cpu 和 ram 不多。
我从外部存储中获取文件。(但速度很快,我可以轻松获得 12MB/s)
我使用pdfbox提取文本
制作一个650Mb 的索引花了390 分钟(455600 个 solrdocuments )