elasticsearch - ElasticSearch 中令人难以置信的慢速索引

Question

我们决定在我们的产品中加入搜索引擎。并比较 ElasticSearch 和 Solr。当我们开始使用 Elastic 2.3.3 时。我们面临索引缓慢的问题。我们使用 Logstash 提供弹性数据，对包含 4000000 条记录的表进行索引需要 8 个多小时。表的物理大小接近 40GB。我们使用硬盘......是的，很遗憾。但是在同一台 PC 上，我们测试了 Solr，同样的操作需要 3 个小时。可能我们在elastic的配置上搞错了？而弹性的另一个时刻索引大小是表大小的两倍多，而 solr 索引只有 DB 大小的 8%。当我们使用 logstash 在文件中输出数据时，它会变得非常快。

这里我们为 elastic 的 logstash 的 jdbc 模块配置：

input { 
   jdbc {
        jdbc_driver_library => "F:\elasticsearch-2.3.3\lib\sqljdbc_4.0\enu\sqljdbc4.jar"
        jdbc_driver_class => "com.microsoft.sqlserver.jdbc.SQLServerDriver"
        jdbc_connection_string => "jdbc:sqlserver://s_tkachenko\mssql2014:49172;databaseName=work"
        jdbc_user => "sa"
        jdbc_password => "__masked_password__"
        statement => "SELECT id, name FROM Contact"                     
        }
      }

我们只设置了 1 个分片，没有设置副本。

亲爱的社区，也许您有任何建议，因为只有在我们购买订阅后，对弹性的支持才会对我们有所帮助。但是购买订阅效果不佳的产品，我认为这不是一个好主意。感谢您的关注，等待您的想法。

score 6 · Accepted Answer

我认为1个分片太少了。根据你的硬件配置增加那个。
使弹性搜索使用一半的内存：https ://www.elastic.co/guide/en/elasticsearch/guide/current/heap-sizing.html#_give_less_than_half_your_memory_to_lucene
增加刷新间隔（默认：1s）：index.refresh_interval: 30s
增加索引缓冲区（默认值：%10）：indices.memory.index_buffer_size: 30%

同时，您也可以在 logstash 中进行一些更改：

使用：-w {WORKER_COUNT} 指定工作人员数量。cpu count * 2 在我的实验中是最好的。
使用以下命令指定缓冲区大小：-u {BUFFER_SIZE}。512 最适合我。

您还可以为 elasticsearch 输出插件指定输出工作人员计数和刷新缓冲区：

output {
    elasticsearch {
        # elasticsearch hosts
        hosts => ["127.0.0.1"]
        # bulk message size
        flush_size => 512
        # output worker cpu core * 2
        workers => 8
    }
}

希望其中一些帮助。

elasticsearch - ElasticSearch 中令人难以置信的慢速索引

1 回答 1

Related

Reference