我的目标是将所有唯一术语及其 md5 哈希值存储在数据库中。我有一个 100 万个文档索引,其中包含约 400000 个唯一术语。我从aggregations
在 elasticsearch 中使用得到了这个数字。
GET /dt_index/document/_search
{
"aggregations": {
"my_agg": {
"cardinality": {
"field": "text"
}
}
}
}
我可以使用以下方法获得独特的条款:
GET /dt_matrix/document/_search
{
"aggregations": {
"my_agg": {
"term": {
"field": "text",
"size": 100
}
}
}
}
这给了我 10 个搜索结果以及 100 个唯一术语的术语聚合。但是获得约 400000 个术语的 JSON 需要内存。就像解析我们可以使用的所有搜索结果一样scan-scroll
。有什么方法可以解析所有唯一术语而不将所有内容加载到内存中?