我正在使用数据流来处理存储在 GCS 中的文件并写入 Bigquery 表。以下是我的要求:
- 输入文件包含事件记录,每条记录属于一个事件类型;
- 需要按 eventType 对记录进行分区;
- 对于每个 eventType 输出/写入记录到相应的 Bigquery 表,每个 eventType 一个表。
- 每个批处理输入文件中的事件有所不同;
我正在考虑应用诸如“groupByKey”和“partition”之类的转换,但是似乎我必须在开发时知道确定分区所需的事件数量(和类型)。
你们有一个好主意来显着地进行分区吗?意味着分区可以在运行时确定?