通过插入以下两个,我无法创建将 pub/sub 源连接到大型查询接收器的 dataflowRunner 作业:
apache_beam.io.gcp.pubsub.PubSubSource
apache_beam.io.gcp.bigquery.BigQuerySink
分别进入 beam/sdks/python/apache_beam/examples/streaming_wordcount.py 中的第 59 行和第 74 行(https://github.com/apache/beam/blob/master/sdks/python/apache_beam/examples/streaming_wordcount.py) github上的例子。删除第 61-70 行并指定正确的 pub/sub 和 bigquery 参数后,脚本运行时不会出现错误,不会构建管道。
旁注:脚本提到流管道支持不可用于 Python。但是,在梁文档中提到 apache_beam.io.gcp.pubsub.PubSubSource 仅可用于流式传输(“apache_beam.io.gcp.pubsub 模块”标题下的第一句:https ://beam.apache.org/documentation /sdks/pydoc/2.0.0/apache_beam.io.gcp.html#module-apache_beam.io.gcp.pubsub)