问题标签 [apache-beam]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-bigquery - 使用 Python 中的 Dataflow Pipeline 将数据从 Google Datastore 传输到 Bigquery
我们在将数据从 Google Cloud Datastore 传输到 Bigquery 时遇到问题。我们需要为这项工作在 python 中创建数据流脚本。此作业应使用 python 中的管道将数据从数据存储传输到 bigquery。对于 python 中的这项工作,它需要“Apache Beam”库。但是 Apache Beam 库不起作用。任何人都可以帮助我们吗?
python - 引发 ImportError 的 Dataflow Python SDK 是在视图中创建管道
我正在运行 Python 数据流 wordcount_minimal.py 示例,并且工作正常。
无论如何,我现在正在尝试从 Flask 视图中创建一个管道,并且由于奇怪而一直失败:
ImportError: Cannot re-init internal module __main__
这是由dill
包提出的,更具体地说是:
https://github.com/uqfoundation/dill/blob/master/dill/dill.py#L67
我做了一些测试,比如创建全新的 virtualenv,以及创建一个没有其他依赖项的简单 Flask 应用程序;所有需要的软件包是:
问题仍然存在。在 github 上的问题列表中没有发现任何东西,无论是在 Dataflow Python SDK 和 dill 包存储库中。
apache-beam - 当 apache 梁将作为 jar 文件发布以在 Eclipse 中添加为项目依赖项时?
apache Beam 什么时候发布?它是否具有与 Oracle RDBMS 连接以在其第一个版本中执行 ETL 的功能?
google-cloud-dataflow - 如何解决类 apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum 上的酸洗错误?
当我远程运行我的数据管道时会引发 PicklingError:数据管道是使用 Beam SDK for Python 编写的,并且我在 Google Cloud Dataflow 之上运行它。当我在本地运行管道时,它工作正常。
以下代码生成 PicklingError:这应该会重现问题
以下是 Traceback 开头和结尾的示例:
apache-beam - 在 Eclipse 中运行 WordCount 示例时出现 Apache-Beam 异常
使用 Eclipse 在 Eclipse 中下载 maven 依赖项
在将 gs 路径更改为 C://examples//misc.txt 后下载并运行 WordCount示例时。获取以下异常。我没有传递任何跑步者。如何在从 Eclipse 运行时传递跑步者选项和输出参数? ?
google-cloud-platform - 如何使环境变量作为python sdk中的环境变量到达Dataflow工作人员
我用 python sdk 编写自定义接收器。我尝试将数据存储到 AWS S3。要连接 S3,需要一些凭证、密钥,但出于安全原因,最好在代码中设置。我想让环境变量作为环境变量到达 Dataflow 工作人员。我该怎么做?
google-cloud-dataflow - 如何通过 pub/sub 将旧数据重播到数据流中并保持正确的事件时间逻辑?
我们正在尝试使用数据流的处理时间独立性来启动一个新的流式传输作业并通过 Pub/Sub 将我们所有的数据重播到其中,但遇到了以下问题:
管道的第一阶段是事务 id 上的 groupby,会话窗口为 10 秒,丢弃已触发的窗格并且不允许延迟。因此,如果我们不指定重播 pub/sub 主题的 timestampLabel,那么当我们重播到 pub/sub 时,所有事件时间戳都是相同的,并且 groupby 会尝试将所有存档数据一直分组到事务 id 中。不好。
如果我们将 timestampLabel 设置为存档数据中的实际事件时间戳,并在 pub/sub 主题中一次重播 1 天,那么它适用于第一天的事件,但一旦这些事件用完,数据重播发布/订阅的水印以某种方式向前跳转到当前时间,并且所有后续重播天数都将作为延迟数据丢弃。我真的不明白为什么会发生这种情况,因为它似乎违反了数据流逻辑独立于处理时间的想法。
如果我们将 timestampLabel 设置为存档数据中的实际事件时间戳,并将其全部重播到 pub/sub 主题中,然后启动流式作业以使用它,数据水印似乎永远不会前进,而且似乎什么也没有从groupby中走出来。我也不太明白这是怎么回事。
apache-beam - Apache Beam maven 依赖项:未在 skd jar 文件中下载 jdbc 包
使用 Eclipse 在 Eclipse 中下载 maven 依赖项
只下载 org.apache.beam.sdk.io,只下载 org.apache.beam.sdk.io.range。但是 .io.jdbc 没有在依赖项中下载。
除了上面提到的之外,我还必须为此使用任何其他特定的 artifactId 吗?
apache-beam - 使用 Beam 从 oracle 获取 JDBC
下面的程序是连接到 Oracle 11g 并获取记录。它如何给我在 pipeline.apply() 的编码器提供 NullPointerException。
我已将 ojdbc14.jar 添加到项目依赖项中。
给出以下错误。任何线索?
apache-beam - Wordcount 的输出存储在不同的文件中
WordCount 的输出存储在多个文件中。但是,开发人员无法控制文件在集群中的位置(IP、路径)。在 MapReduce API 中,开发人员可以编写 reduce 程序来解决这个问题。如何在 ApacheBeam 中使用 DirectRunner 或任何其他运行器来处理这个问题?