我在 GCS 中有不断增长的数据,并且将有一个批处理作业运行,可以说每天处理 100 万篇文章增量。我需要从 BigTable(包含数十亿条记录)中获取键的附加信息。对地图操作中的每个项目进行查找是否可行?批处理这些查找并执行诸如批量读取之类的操作是否有意义?或者使用 scio/beam 的这个用例的最佳方法是什么?
我在Pattern: Streaming mode large lookup tables中发现,对每个请求执行查找是推荐的流式方法,但是我不确定我是否不会通过批处理作业重载 BigTable。
你们对如何处理这个用例有任何总体或具体的建议吗?