1

我正在使用应用引擎中的 Google BigQuery。我有一个每 15 分钟运行一次的 cron 作业来导出到 BigQuery。不过,导入会随机运行两次。但是,appengine 日志没有反映这一点。我有一组我维护的 blob 用于将数据写入 bigquery,并且不会将重复的数据写入它们。有没有其他人遇到过重复导入的 bigquery 问题?同样,我的 appengine 日志显示导入只发生一次,我有点不知所措如何进行故障排除。

4

2 回答 2

2

解决问题的一种方法是查看您的导入作业。您可以使用 bq 工具来执行此操作,方法是运行bq ls -j以列出您已运行的作业,并bq show -j <job_id>显示有关特定作业的详细信息。

我们还没有听说过任何其他重复加载的情况。防止这种情况的一种方法是为您的导入作业提供一个 id ... 默认情况下会为您创建一个(它看起来像 job_)。作业 ID 在项目中被强制要求是唯一的,因此如果您为每次要执行的导入生成一个 ID,如果触发了双重导入,则第二个导入将立即失败,因为该作业 ID 已经存在。

于 2012-06-17T23:19:48.383 回答
1

我面临着同样的问题,即使我们的日志显示它只提交了一次,但这些作业似乎已经导入了两次。

还查看了作业,上面的命令显示它只成功处理了一次。

请注意,由于作业只提交了一次,因此不确定在这种情况下控制 job_id 会有什么帮助。似乎是 BigQuery 内部的某些东西可能导致作业重复?

让我知道您是否需要我的任何东西进行调查。

谢谢,

于 2012-12-26T18:41:17.247 回答