elasticsearch - 使用 Python DSL Elasticsearch UpdateByQuery 单独更新大量文档

Question

我正在尝试使用 UpdateByQuery 来更新大量文档的属性。但是由于每个文档都会有不同的值，所以我需要一个一个地执行 ir。我正在遍历大量文档，对于每个文档，我都调用了这个函数：

def update_references(self, query, script_source):

    try:
        ubq = UpdateByQuery(using=self.client, index=self.index).update_from_dict(query).script(source=script_source)
        ubq.execute()

    except Exception as err:
        return False

    return True

一些示例值是：

查询= {'查询'：{'匹配'：{'_id'：'VpKI1msBNuDimFsyxxm4'}}}
script_source = 'ctx._source.refs = [\'python\', \'java\']'

问题是，当我这样做时，我收到一个错误：“内部动态脚本编译过多，最大：[75/5m]；请使用索引或带参数的脚本；此限制可以通过 [script. max_compilations_rate] 设置”。

如果我使用 Kibana 更改 max_compilations_rate，它没有效果：

PUT _cluster/settings
{
  "transient": {
    "script.max_compilations_rate": "1500/1m"
  }
}

无论如何，最好使用参数化脚本。我试过了：

def update_references(self, query, script_source, script_params):

    try:
        ubq = UpdateByQuery(using=self.client, index=self.index).update_from_dict(query).script(source=script_source, params=script_params)
        ubq.execute()

    except Exception as err:
        return False

    return True

所以，这一次：

script_source = 'ctx._source.refs = params.value'
script_params = {'value': [\'python\', \'java\']}

但是由于我每次都必须更新查询和参数，所以我需要为大集合中的每个文档创建一个新的 UpdateByQuery 实例，结果是同样的错误。

我还尝试使用以下方法遍历和更新大型集合：

es.update(
    index=kwargs["index"],
    doc_type="paper",
    id=paper["_id"],
    body={"doc": {
        "refs": paper["refs"]  # e.g. [\\'python\\', \\'java\\']
    }}
)

但我收到以下错误：“无法建立新连接：[Errno 99] 无法分配请求的地址 juil。10 18:07:14 bib gunicorn[20891]: POST http://localhost:9200/papers/纸/OZKI1msBNuDimFsy0SM9/_update [状态：N/A 请求：0.005s”

因此，如果您对如何解决此问题有任何想法，我们将不胜感激。最好的，

score 0 · Accepted Answer

你可以这样试试。

PUT _cluster/settings
{
    "persistent" : {
        "script.max_compilations_rate" : "1500/1m"
    }
}

版本更新导致这些错误。

elasticsearch - 使用 Python DSL Elasticsearch UpdateByQuery 单独更新大量文档

1 回答 1

Related

Reference