我正在尝试重新索引 ElasticSearch,我使用了 Scan 和 Bulk API,但它非常慢,我怎样才能并行处理以使其更快。我的python代码如下:
actions=[]
for hit in helpers.scan(es,scroll='20m',index=INDEX,doc_type=TYPE,params=
{"size":100}):
value= hit.get('_source')
idval = hit.get('_id')
action = indexAction(INDEX_2,TYPE_2,idval,value)
actions.append(action)
count+=1
if(count%200==0):
helpers.bulk(es, actions,stats_only=True,params=
{"consistency":"one","chunk_size":200})
actions=[]
我应该进行扫描多个进程还是应该进行批量多个进程。我一直在徘徊 ElasticSearch-Hadoop 如何实现这一点。我的索引有 10 个节点和 20 个分片。