我正在尝试使用 UpdateByQuery 来更新大量文档的属性。但是由于每个文档都会有不同的值,所以我需要一个一个地执行 ir。我正在遍历大量文档,对于每个文档,我都调用了这个函数:
def update_references(self, query, script_source):
try:
ubq = UpdateByQuery(using=self.client, index=self.index).update_from_dict(query).script(source=script_source)
ubq.execute()
except Exception as err:
return False
return True
一些示例值是:
- 查询= {'查询':{'匹配':{'_id':'VpKI1msBNuDimFsyxxm4'}}}
- script_source = 'ctx._source.refs = [\'python\', \'java\']'
问题是,当我这样做时,我收到一个错误:“内部动态脚本编译过多,最大:[75/5m];请使用索引或带参数的脚本;此限制可以通过 [script. max_compilations_rate] 设置”。
如果我使用 Kibana 更改 max_compilations_rate,它没有效果:
PUT _cluster/settings
{
"transient": {
"script.max_compilations_rate": "1500/1m"
}
}
无论如何,最好使用参数化脚本。我试过了:
def update_references(self, query, script_source, script_params):
try:
ubq = UpdateByQuery(using=self.client, index=self.index).update_from_dict(query).script(source=script_source, params=script_params)
ubq.execute()
except Exception as err:
return False
return True
所以,这一次:
- script_source = 'ctx._source.refs = params.value'
- script_params = {'value': [\'python\', \'java\']}
但是由于我每次都必须更新查询和参数,所以我需要为大集合中的每个文档创建一个新的 UpdateByQuery 实例,结果是同样的错误。
我还尝试使用以下方法遍历和更新大型集合:
es.update(
index=kwargs["index"],
doc_type="paper",
id=paper["_id"],
body={"doc": {
"refs": paper["refs"] # e.g. [\\'python\\', \\'java\\']
}}
)
但我收到以下错误:“无法建立新连接:[Errno 99] 无法分配请求的地址 juil。10 18:07:14 bib gunicorn[20891]: POST http://localhost:9200/papers/纸/OZKI1msBNuDimFsy0SM9/_update [状态:N/A 请求:0.005s”
因此,如果您对如何解决此问题有任何想法,我们将不胜感激。最好的,