0

我正在尝试使用 UpdateByQuery 来更新大量文档的属性。但是由于每个文档都会有不同的值,所以我需要一个一个地执行 ir。我正在遍历大量文档,对于每个文档,我都调用了这个函数:

def update_references(self, query, script_source):

    try:
        ubq = UpdateByQuery(using=self.client, index=self.index).update_from_dict(query).script(source=script_source)
        ubq.execute()

    except Exception as err:
        return False

    return True

一些示例值是:

  • 查询= {'查询':{'匹配':{'_id':'VpKI1msBNuDimFsyxxm4'}}}
  • script_source = 'ctx._source.refs = [\'python\', \'java\']'

问题是,当我这样做时,我收到一个错误:“内部动态脚本编译过多,最大:[75/5m];请使用索引或带参数的脚本;此限制可以通过 [script. max_compilations_rate] 设置”。

如果我使用 Kibana 更改 max_compilations_rate,它没有效果:

PUT _cluster/settings
{
  "transient": {
    "script.max_compilations_rate": "1500/1m"
  }
}

无论如何,最好使用参数化脚本。我试过了:

def update_references(self, query, script_source, script_params):

    try:
        ubq = UpdateByQuery(using=self.client, index=self.index).update_from_dict(query).script(source=script_source, params=script_params)
        ubq.execute()

    except Exception as err:
        return False

    return True

所以,这一次:

  • script_source = 'ctx._source.refs = params.value'
  • script_params = {'value': [\'python\', \'java\']}

但是由于我每次都必须更新查询和参数,所以我需要为大集合中的每个文档创建一个新的 UpdateByQuery 实例,结果是同样的错误。

我还尝试使用以下方法遍历和更新大型集合:

es.update(
    index=kwargs["index"],
    doc_type="paper",
    id=paper["_id"],
    body={"doc": {
        "refs": paper["refs"]  # e.g. [\\'python\\', \\'java\\']
    }}
)

但我收到以下错误:“无法建立新连接:[Errno 99] 无法分配请求的地址 juil。10 18:07:14 bib gunicorn[20891]: POST http://localhost:9200/papers/纸/OZKI1msBNuDimFsy0SM9/_update [状态:N/A 请求:0.005s”

因此,如果您对如何解决此问题有任何想法,我们将不胜感激。最好的,

4

1 回答 1

0

你可以这样试试。

PUT _cluster/settings
{
    "persistent" : {
        "script.max_compilations_rate" : "1500/1m"
    }
}

版本更新导致这些错误。

于 2021-10-19T21:26:26.380 回答