0

我在这里阅读了 Michael 对这篇文章的回答,其中建议使用管道将数据从数据存储移动到云存储再到大查询。

Google App Engine:在数据存储上使用 Big Query?

我想使用这种技术将数据附加到 bigquery 表中。这意味着我必须有某种方式知道实体是否已被处理,这样它们就不会在 mapreduce 运行期间重复提交给 bigquery。我不想每次都重建我的桌子。

在我看来,我有两个选择。我可以在实体上放置一个标志,并在处理每个实体时对其进行更新,并在后续运行中将其过滤掉 - 或者 - 我可以将每个实体保存到一个新表中并将其从源表中删除。第二种方式似乎更好,但我想询问选项或看看是否有任何陷阱

4

1 回答 1

0

假设您有一些活动流表示为实体,您可以使用查询游标在前一个查询中断的地方启动一个查询。查询游标非常适合您所描述的增量情况类型,因为它们避免了将实体标记为已处理的开销。

我不得不四处看看 App Engine MapReduce 是否支持游标(我怀疑它还不支持)。

于 2012-06-13T03:55:40.583 回答