0

我需要关于在新上传的表上处理批处理作业的建议(使用 php 和 csv)。

目前,我每周运行的过程是上传 2 个表(一个是 ~400000 行和 ~24mb 数据,第二个是 ~7000 行和 ~627 kb 数据),然后以批处理优先级调度查询以处理来自这些表的上传数据并将结果保存到新表中。

当我试图在白天运行批处理查询时,通常需要我运行一些相当大的延迟,比如 20 分钟左右。问题是在上传过程中 bigquery 几乎立即运行它们,因此抛出“找不到表错误”并跳过其中一些。

最近上传:上传表 1 “job_75ae1fa6db89418b8fe2b6c443501246” 上传表 2 “job_a79c39ae528944848fab85650b94a5d7” 显示最近错误的批处理作业编号之一是“job_dd18580ccb51486dabf82d1d408a3199”

问题是 - 这种行为对于批处理作业是否正确?有没有办法预测/安排它们的执行时间,或者我只需要将它们分开并在不同的时间运行?

4

1 回答 1

0

对于批处理作业何时发生,您明确没有得到很多保证。我会认真对待。但是,您可以使用 aget来查明它何时发生。

批处理作业的重点是它们可以在原本空闲的机器上运行。没有人事先知道这种机器的可用性。如果这对您来说是个问题,请不要安排批处理作业。

于 2013-08-09T02:32:13.657 回答