从Elasticsearch 查询中,我可以生成大约 5000 个文档现在,我正在尝试确定哪些非停用词(停用词是辅助动词/非重要词)出现最多。
所以我使用显着文本聚合尝试了这个查询
$params2 = [
'index' => ["web", "print"],
'type' => 'index',
'from' => 0,
'size' => 10000,
'filter_path' => ['aggregations'],
'body' => [
"query" => //omitted query here
'aggs' => [
'SIGNIFICANT' => [
"significant_text" => [
"field" => "content"
]
]
]
]
];
不幸的是,它仍然显示一些对我来说garbage words
不重要的
我的问题: 1.聚合
是否有替代方案?significant_text
- 我还想
terms
在这个主aggs之后进行子聚合significant_text
,因为我想结合一个查询知道流行词,然后根据其他字段过滤文档
如果您知道如何执行此所需的过程和输出,将不胜感激