5

我有以下类型的文件:

[{"msg":"hello", date: "some-date"},{"msg":"hi!", date: "some-date"}, ...

我想按星期几计算文件数量。例如 x 消息是在星期一发送的,y 是在星期二发送的,以此类推。

我已将 date_histogram 与聚合一起使用,但它会按天返回文档。它确实返回了当天,但是说“Wed, 22”和“Wed, 29”作为单独的聚合文档返回。

这与Elasticsearch 有点相关——按星期几和每小时分组,但这个问题没有答案,所以我重新发布它。根据那里的建议,它要求我对 key_as_string 进行术语聚合,但我需要为每个对象添加 doc_count 而不仅仅是计算术语。我也不知道如何在嵌套聚合中使用 key_as_string。

这是我尝试过的:

"aggs" : {
                "posts_over_days" : {
                    "date_histogram" : { 
                        "field" : "created_time", 
                        "interval": "day",
                        "format": "E" 
                    }
                }
4

3 回答 3

6

在这里重新发布我的答案:https ://stackoverflow.com/a/31851896/6247

这有帮助吗:

"aggregations": {
    "timeslice": {
        "histogram": {
            "script": "doc['timestamp'].value.getHourOfDay()",
            "interval": 1,
            "min_doc_count": 0,
            "extended_bounds": {
                "min": 0,
                "max": 23
            },
            "order": {
                "_key": "desc"
            }
        }
    }

这很好,因为它还包括结果为零的任何小时,并且它将结果扩展到整个 24 小时期间(由于 extended_bounds)。

您可以使用“getDayOfWeek”、“getHourOfDay”、...(更多信息请参见“Joda time”)。

这对于几个小时来说很好,但对于几天/几个月,它会给你一个数字而不是月份名称。要解决此问题,您可以将时间段作为字符串获取 -但是,这不适用于扩展边界方法,因此您可能会得到空结果(即 [Mon, Tues, Fri, Sun])。

如果你想要的话,它就在这里:

"aggregations": {
    "dayOfWeek": {
        "terms": {
            "script": "doc['timestamp'].value.getDayOfWeek().getAsText()",
            "order": {
                "_term": "asc"
            }
        }
    }

即使这对您没有帮助,但希望其他人会发现它并从中受益。

于 2015-08-06T09:36:35.657 回答
4

在这个线程中已经解决了同样的问题。

根据您的问题调整解决方案,我们需要制作一个脚本来将日期转换为一天中的小时和一周中的一天:

Date date = new Date(doc['created_time'].value) ; 
java.text.SimpleDateFormat format = new java.text.SimpleDateFormat('EEE, HH');
format.format(date)

并在查询中使用它:

{
    "aggs": {
        "perWeekDay": {
            "terms": {
                "script": "Date date = new Date(doc['created_time'].value) ;java.text.SimpleDateFormat format = new java.text.SimpleDateFormat('EEE, HH');format.format(date)"
            }
        }
    }
}
于 2015-03-12T11:27:09.857 回答
2

最简单的方法是定义一个专用的星期几字段,该字段仅包含每个文档的星期几,然后对该字段进行术语聚合。

如果出于某种原因你不想(或不能)这样做,这里有一个技巧可以帮助你得到你想要的。基本思想是定义一个"date.raw"字符串子字段,使用标准分析器进行分析,以便为一周中的每一天创建术语。然后,您可以汇总这些术语以获得计数,使用include仅包含您想要的术语。

这是我用于测试的映射:

PUT /test_index
{
   "settings": {
      "number_of_shards": 1
   },
   "mappings": {
      "doc": {
         "properties": {
            "msg": {
               "type": "string"
            },
            "date": {
               "type": "date",
               "format": "E, dd MMM yyyy",
               "fields": {
                  "raw": {
                     "type": "string"
                  }
               }
            }
         }
      }
   }
}

和一些示例文档:

POST /test_index/_bulk
{"index":{"_index":"test_index","_type":"doc","_id":1}}
{"msg": "hello","date": "Wed, 11 Mar 2015"}
{"index":{"_index":"test_index","_type":"doc","_id":2}}
{"msg": "hello","date": "Tue, 10 Mar 2015"}
{"index":{"_index":"test_index","_type":"doc","_id":3}}
{"msg": "hello","date": "Mon, 09 Mar 2015"}
{"index":{"_index":"test_index","_type":"doc","_id":4}}
{"msg": "hello","date": "Wed, 04 Mar 2015"}

以及聚合和结果:

POST /test_index/_search?search_type=count
{
    "aggs":{
        "docs_by_day":{
            "terms":{
                "field": "date.raw",
                "include": "mon|tue|wed|thu|fri|sat|sun"
            }
        }
    }
}
...
{
   "took": 2,
   "timed_out": false,
   "_shards": {
      "total": 1,
      "successful": 1,
      "failed": 0
   },
   "hits": {
      "total": 4,
      "max_score": 0,
      "hits": []
   },
   "aggregations": {
      "docs_by_day": {
         "buckets": [
            {
               "key": "wed",
               "doc_count": 2
            },
            {
               "key": "mon",
               "doc_count": 1
            },
            {
               "key": "tue",
               "doc_count": 1
            }
         ]
      }
   }
}

这是所有代码:

http://sense.qbox.io/gist/0292ddf8a97b2d96bd234b787c7863a4bffb14c5

于 2015-03-11T19:44:44.477 回答