4

我将在 bigquery 上维护数据库的本地副本。我将使用 API 和 tabledata:list。这个数据库不是我自己的,维护者会通过添加新数据(比如每小时)定期更新。

  1. 首先,我可以假设当这个数据被追加时,它肯定会被添加到数据库的末尾吗?

  2. 现在,假设当前数据库有 1,000,000 行,我现在通过 tabledata:list 分页下载所有这些。此外,假设数据库在中途更新(有 10,000 行)。通过使用页面令牌,我可以确保我只会按照它们在数据库中的顺序下载开始时出现的 1m 行吗?

  3. 最后,现在假设我来更新我的副本。如果我以 1,000,000 的 startIndex 启动 tabledata:list 并使用 1000 的 maxResults,我会得到 10 个包含我期望的更新数据的页面吗?

我想所有这些问题都归结为 bigquery 是否尊重数据的顺序,tabledata:list 是否使用此顺序,以及附加数据是否保证遵循先前的数据。

由于有一列的值是唯一的,并且我可以执行简单select count(1) from table的操作来获取表的长度,因此我当然可以通过比较本地数据库的长度与远程数据库的长度来检查我的本地副本是否完整,但是如果不能保证上述内容并且我最终在数据中发现了漏洞,那么补救是非常不切实际的,因为主键不是连续的(否则我只能填写缺失的行)并且数据库非常大。

4

1 回答 1

6
  1. 当您追加数据时,我们将追加到表数据列表的末尾,但是,bigquery 可能会定期合并数据,这不尊重排序。我们一直在讨论能够保留排序,或者至少有一种访问最新数据的方法,但这还没有实现或设计。如果它对您来说很重要,请告诉我们,我们会相应地对其进行优先排序。

  2. 如果您使用页面令牌,您可以确保获得稳定的列表。如果表格在数据分页过程中更新,您仍然只能看到创建页面令牌时表格中的数据。请注意,正因为如此,页面令牌仅在 24 小时内有效。

  3. 只要在您更新表格后没有发生合并,这应该可以工作。

您可以通过调用 tables.get 来获取表中的行数,这通常比运行查询更简单、更快。

于 2013-05-31T17:59:50.627 回答