mongodb - 有没有根据特定时区按天对记录进行分组的有效方法？

Question

我正在使用 MongoDB 数据库来跟踪应用程序的分析。我正在编写一个 Clojure 应用程序（使用 clj-time 和 Monger）来从数据库中获取数据。

我有一个包含类似记录的集合

{"_id": ObjectId(...),
 timestamp: ISODate("2013-06-01T15:18:37Z"),
 device: "04dbf04b6dc0d0a4fd383967b3dc62f50111e07e"}

每个不同device的代表我的服务的不同用户。我想做的是找出我每天有多少（唯一）用户，但需要注意的是，我希望“一天”专门指美国/中部时区，考虑夏令时. （如果这不是一个要求，我想我可以做一些类似 a$group然后 a 的事情distinct。）

这是我一直在做的事情：

(ns analytics.reporting
  (:use [monger.core :only [connect! connect set-db! get-db]]
        monger.operators
        clj-time.core
        clj-time.periodic
        clj-time.format)
  (:require [monger.collection :as mc]))

(defn to-central
  [dt]
  (from-time-zone dt (time-zone-for-id "America/Chicago")))

(defn count-distinct
  [coll]
  (count (distinct coll)))

(defn daily-usage
  [ndays]
  (let [midnights (map to-central
                       (reverse (for [offset (map days (range ndays))]
                                  (minus (to-central (today-at 0 0)) offset))))
        by-day (for [midnight midnights]
                 (mc/find-maps "devices" {:timestamp {$gte midnight $lt (plus midnight (days 1))}}))
        devices-by-day (map #(map :device %) by-day)
        distinct-devices-by-day (map count-distinct devices-by-day)]
    distinct-devices-by-day))

如果您看不懂 Clojure，这基本上是说：获取中央时区最近n 个午夜的列表，然后运行 Mongo 查询以查找每对连续午夜之间的所有记录。然后，计算device每天不同 s 的数量。

这是我不喜欢这种方法的地方：

每天运行一个单独的查询（我通常一次查看 30 天）感觉不对；这是应该在数据库端而不是应用程序端完成的事情。
计算不同device的 s 也应该由数据库完成。
我的服务器设置为 UTC 时区，因此如果它在 UTC 午夜之后但在中央时间午夜之前，则此列表中的最后一个条目将始终为零。这很容易修补，但我更喜欢一个足够聪明的解决方案来首先防止它。
整个函数运行大约需要 500 毫秒。这并不可怕——我是唯一一个运行查询的人，而且每天只有一两次——但看起来这个操作不应该花那么长时间。

有没有办法可以将更多这种逻辑推入 MongoDB 查询？

score 1 · Accepted Answer

正如@WiredPrairie 所建议的那样，当我将其添加到数据库中时，我最终只在每条记录中包含了中央时间日期。然后我可以使用一个简单的$group查询来收集每个日期的记录数。

mongodb - 有没有根据特定时区按天对记录进行分组的有效方法？

1 回答 1

Related

Reference