python - 从 NDB 数据存储中聚合数据的最佳方法？

Question

我有一个StatisticStore模型定义为：

class StatisticStore(ndb.Model):
  user = ndb.KeyProperty(kind=User)
  created = ndb.DateTimeProperty(auto_now_add=True)
  kind = ndb.StringProperty()
  properties = ndb.PickleProperty()

  @classmethod
  def top_links(cls, user, start_date, end_date):
    '''
    returns the user's top links for the given date range
    e.g.
    {'http://stackoverflow.com': 30,
     'http://google.com': 10,
     'http://yahoo.com': 15}
    '''
    stats = cls.query(
      cls.user == user.key,
      cls.created >= start_date,
      cls.created <= end_date,
      cls.kind == 'link_visited'
    )
    links_dict = {}
    # generate links_dict from stats
    # keys are from the 'properties' property
    return links_dict

我想要一个模型来存储每天AggregateStatisticStore的总量。StatisticStore它可以每天生成一次。就像是：

class AggregateStatisticStore(ndb.Model):
  user = ndb.KeyProperty(kind=User)
  date = ndb.DateProperty()
  kinds_count = ndb.PickleProperty()
  top_links = ndb.PickleProperty()

因此，以下将是正确的：

start = datetime.datetime(2013, 8, 22, 0, 0, 0)
end = datetime.datetime(2013, 8, 22, 23, 59, 59)

aug22stats = StatisticStore.query(
  StatisticStore.user == user,
  StatisticStore.kind == 'link_visited',
  StatisticStore.created >= start,
  StatisticStore.created <= end
).count()
aug22toplinks = StatisticStore.top_links(user, start, end)

aggregated_aug22stats = AggregateStatisticStore.query(
  AggregateStatisticStore.user == user,
  AggregateStatisticStore.date == start.date()
)

aug22stats == aggregated_aug22stats.kinds_count['link_visited']
aug22toplinks == aggregated_aug22stats.top_links

我正在考虑使用任务队列 API 运行一个 cronjob。该任务将生成AggregateStatisticStore每天的。但我担心它可能会遇到内存问题？看到StatisticStore每个用户可能有很多记录。

此外，top_links属性有点使事情复杂化。我还不确定在聚合模型中拥有它的属性是否是最好的方法。任何关于该属性的建议都会很棒。

最终，我只想记录StatisticStore大约 30 天前的记录。如果记录超过 30 天，则应将其汇总（然后删除）。节省空间并缩短可视化查询时间。

编辑：每次StatisticStore记录 a 时如何创建/更新适当的AggregateStatisticStore记录。这样，所有 cronjob 所要做的就是清理。想法？

score 1 · Accepted Answer

是的，mapreduce 对这个有好处。或者，您可以使用“后端”（现在的模块）实例运行您的 cron 作业。这可以缓解内存问题和作业长度问题。

另一种方法可能是将聚合移动到写入时间。由于这是针对每个用户的，您可能会发现以这种方式消除了很多工作。如果 AggregateStatisticStore 是每天，您可能希望使用 DateProperty 以外的日期作为日期。DateProperty 当然会起作用，但我发现将 IntegerProperty 用于这种 int 只是“一段时间以来的一天”的事情更容易。

score 0 · Accepted Answer

如果AggregateStatisticScores 相互独立，则无需使用 MapReduce。如果您可以为每个用户运行一个循环，只需为每个用户运行一个任务队列进程并写入一条记录。它实际上只是“地图”阶段。

如果您可以将其进一步分解为更多并行任务，则创建更多任务队列进程。“并行化”它！

score 0 · Accepted Answer

与聚合数据有些相关：

改变StatisticStore并AggregateStatisticStore成为user.key他们的父母。这意味着user = ndb.KeyProperty(kind=User)从每个模型中删除，创建每个模型parent = user.key并parent = user.key在query()s 中使用。NDB 擅长聚合具有相同父级的数据。

python - 从 NDB 数据存储中聚合数据的最佳方法？

3 回答 3

Related

Reference