1

作为后台任务,我需要按索引顺序遍历相当大的实体数据集。(实体数量约 200,000+)

我知道 TaskQueue API 以及可能的后台实例是可行的方法,但我有时会遇到 DataStoreUnavailable 和超时异常,我正在寻找的是一种使用 GAE 在后台进行迭代和更新的可靠方法蜜蜂。

了解迭代的进度对我也很有用。

我也知道实验性的 Java Map Reduce API,但在我看来,这似乎更像是一个并行处理 API,而不是有序的。(如果我错了,请纠正我。Java Map Reduce 示例目前似乎很少而且相距甚远)

有没有做这类工作的具体例子或好的模式?

4

1 回答 1

1

仅处理作业中有限数量的实体。

像往常一样从查询开始,但如果作业请求具有游标参数,请将其应用于查询。然后只获取固定数量的实体,而不是全部获取。

当作业完成,但有更多实体要处理时,检索当前查询游标,并使用游标作为请求参数再次调度相同的作业。

于 2013-04-26T14:18:10.333 回答