最近云数据流 python sdk 可用,我决定使用它。不幸的是,还没有支持从云数据存储中读取数据,所以我不得不依赖编写自定义源代码,以便我可以按照承诺利用动态拆分、进度估计等的好处。我确实彻底研究了文档,但无法将各个部分放在一起,以便我可以加快整个过程。
更清楚地说,我的第一种方法是:
- 查询云数据存储
- 创建 ParDo 函数并将返回的查询传递给它。
但是这样一来,迭代超过 20 万个条目需要 13 分钟。
所以我决定编写可以有效读取实体的自定义源。但是由于我对将各个部分组合在一起缺乏了解,我无法做到这一点。任何人都可以帮助我如何创建自定义源以从数据存储中读取。
编辑:对于第一种方法,我的要点的链接是: https ://gist.github.com/shriyanka/cbf30bbfbf277deed4bac0c526cf01f1
谢谢你。