我将在 bigquery 上维护数据库的本地副本。我将使用 API 和 tabledata:list。这个数据库不是我自己的,维护者会通过添加新数据(比如每小时)定期更新。
首先,我可以假设当这个数据被追加时,它肯定会被添加到数据库的末尾吗?
现在,假设当前数据库有 1,000,000 行,我现在通过 tabledata:list 分页下载所有这些。此外,假设数据库在中途更新(有 10,000 行)。通过使用页面令牌,我可以确保我只会按照它们在数据库中的顺序下载开始时出现的 1m 行吗?
最后,现在假设我来更新我的副本。如果我以 1,000,000 的 startIndex 启动 tabledata:list 并使用 1000 的 maxResults,我会得到 10 个包含我期望的更新数据的页面吗?
我想所有这些问题都归结为 bigquery 是否尊重数据的顺序,tabledata:list 是否使用此顺序,以及附加数据是否保证遵循先前的数据。
由于有一列的值是唯一的,并且我可以执行简单select count(1) from table
的操作来获取表的长度,因此我当然可以通过比较本地数据库的长度与远程数据库的长度来检查我的本地副本是否完整,但是如果不能保证上述内容并且我最终在数据中发现了漏洞,那么补救是非常不切实际的,因为主键不是连续的(否则我只能填写缺失的行)并且数据库非常大。