4

我正在使用数据流来处理存储在 GCS 中的文件并写入 Bigquery 表。以下是我的要求:

  1. 输入文件包含事件记录,每条记录属于一个事件类型;
  2. 需要按 eventType 对记录进行分区;
  3. 对于每个 eventType 输出/写入记录到相应的 Bigquery 表,每个 eventType 一个表。
  4. 每个批处理输入文件中的事件有所不同;

我正在考虑应用诸如“groupByKey”和“partition”之类的转换,但是似乎我必须在开发时知道确定分区所需的事件数量(和类型)。

你们有一个好主意来显着地进行分区吗?意味着分区可以在运行时确定?

4

1 回答 1

1

为什么不将所有内容加载到单个“原始”bigquery 表中,然后使用 BigQuery API 确定不同数量的事件并将每种事件类型导出到自己的表中(例如,通过https://cloud.google.com/bigquery/bq- command-line-tool#createtablequery ) 还是 API 调用?

如果您的输入格式很简单,您可以完全不使用数据流来做到这一点,而且它可能更具成本效益。

于 2015-03-21T13:06:31.380 回答