我在这里阅读了 Michael 对这篇文章的回答,其中建议使用管道将数据从数据存储移动到云存储再到大查询。
Google App Engine:在数据存储上使用 Big Query?
我想使用这种技术将数据附加到 bigquery 表中。这意味着我必须有某种方式知道实体是否已被处理,这样它们就不会在 mapreduce 运行期间重复提交给 bigquery。我不想每次都重建我的桌子。
在我看来,我有两个选择。我可以在实体上放置一个标志,并在处理每个实体时对其进行更新,并在后续运行中将其过滤掉 - 或者 - 我可以将每个实体保存到一个新表中并将其从源表中删除。第二种方式似乎更好,但我想询问选项或看看是否有任何陷阱