python-3.x - 如何计算元数据并将其添加到现有 Elasticsearch 索引？

Question

我将超过 3800 万个文档（文本字符串）加载到本地机器上的 Elasticsearch 索引中。我想计算每个字符串的长度并将该值作为元数据添加到索引中。

在将文档加载到 Elasticsearch 之前，我是否应该将字符串长度计算为元数据？或者，我可以在事后使用计算值更新元数据吗？

我对 Elasticsearch/Kibana 比较陌生，这些问题是由于以下 Python 实验而产生的：

数据作为字符串列表

 mylist = ['string_1', 'string_2',..., 'string_N']
 L = [len(s) for s in mylist]  # this computation takes about 1 minute on my machine

选项 1 的缺点是我没有利用 Elasticsearch，并且“mylist”占用了大量内存。

作为 Elasticsearch 索引的数据，其中“mylist”中的每个字符串都被加载到“text”字段中。
```
 from haystack.document_store.elasticsearch import ElasticsearchDocumentStore
 document_store = ElasticsearchDocumentStore(host='localhost', username='', password='', index='myindex')
 docs = document_store.get_all_documents_generator()
 L = [len(d.text) for d in docs]  # this computation takes about 6 minutes on my machine
```
选项 2 的缺点是计算时间更长。好处是 generator() 释放了内存。较长的计算时间是为什么我认为将字符串长度（和其他分析）作为元数据存储在 Elasticsearch 中是一个很好的解决方案的原因。

我应该考虑其他选择吗？我错过了什么？

score 1 · Accepted Answer

如果要存储整个文档的大小，我建议安装mapper-size插件，它将在_size字段中存储源文档的大小。

如果您只想存储源文档的特定字段的大小，那么您需要以不同的方式进行。

我的建议是创建一个摄取管道，该管道将在每个文档被索引之前对其进行处理。然后可以在第一次索引文档时或加载文档后使用该摄取管道。我会告诉你怎么做。

script首先，使用一个处理器创建摄取管道，该处理器将text在另一个名为textLength.

PUT _ingest/pipeline/string-length
{
  "description": "My optional pipeline description",
  "processors": [
    {
      "script": {
        "source": "ctx.textLength = ctx.text.length()"
      }
    }
  ]
}

因此，如果您已经将文档加载到 Elasticsearch 并希望使用其中一个字段的长度来丰富每个文档，您可以在事后使用Update by Query API来完成，如下所示：

POST myindex/_update_by_query?pipeline=string-length&wait_for_completion=false

当文档第一次被索引时，也可以在索引时利用该摄取管道，只需在索引查询中引用管道，如下所示：

PUT myindex/_doc/123?pipeline=string-length

这两种选择都行得通，试一试，然后选择最适合您需求的一种。

python-3.x - 如何计算元数据并将其添加到现有 Elasticsearch 索引？

1 回答 1

Related

Reference