1

我试图弄清楚是什么阻碍了索引速度。我正在从 pdf 中提取文本以将每个页面单独索引到 solr 以获取页面命中结果。

我在每个“文档”之后都使用了提交。然后我注意到每次我使用提交时它都会花费大量时间来重建索引。

现在我用这个:

      <autoCommit> <maxDocs>10000</maxDocs> <maxTime>60000</maxTime> </autoCommit>

每分钟获得一次提交。

但后来我计算并发现它索引了大约30 个“文档”(作为 solrDoc 的页面)/秒或 10 个真实文档/秒。与其他设置相比,这似乎相当慢。

我怎样才能提高我的速度?

额外信息:(如果需要,请索取)

  • 我的文档包含 7 个字段。(1 个内容字段与页面上的文本)

  • 我使用Solrj将文档添加到 solr。

  • 我正在使用示例配置,因为我没有 Solr 的高级知识

  • pc intel core i7 2600+16Gb ram+ssd(这是一台开发计算机,不是最终服务器,但它应该很快)使用的 cpu 和 ram 不多。

  • 我从外部存储中获取文件。(但速度很快,我可以轻松获得 12MB/s)

  • 我使用pdfbox提取文本

  • 制作一个650Mb 的索引花了390 分钟(455600 个 solrdocuments )

4

1 回答 1

1

一方面是您的进程是否是多线程的,如果不是,请通过多个线程从 pdf 中提取文本进行测试,然后交给 solr 进行索引。

于 2012-09-07T21:06:21.957 回答