问题标签 [apache-beam-io]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
109 浏览

google-bigquery - BigQuery 源/接收器的数据流管道详细信息未显示

根据Google Dataflow 团队的公告,如果我们使用 1.6 SDK,我们应该能够在控制台中看到我们的 BigQuery 源和接收器的详细信息。

但是,尽管确实显示了新的“管道选项”,但 BigQuery 源/接收器的详细信息并未显示。我们的管道以批处理模式运行。供参考的工作 ID 是:2016-06-23_04_38_00-7749718775594891108

我们如何显示 BigQuery 源/接收器的详细信息?

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

0 投票
6 回答
5725 浏览

google-bigquery - 通过 Google Cloud Dataflow 创建/写入 Parititoned BigQuery 表

我想利用时间分区表的新 BigQuery 功能,但我不确定这在 1.6 版本的 Dataflow SDK 中是否可行。

查看BigQuery JSON API,要创建一天分区表,需要传入一个

选项,但 com.google.cloud.dataflow.sdk.io.BigQueryIO 接口只允许指定 TableReference。

我想也许我可以预先创建表,然后通过 BigQueryIO.Write.toTableReference lambda 潜入分区装饰器......?还有其他人通过 Dataflow 创建/写入分区表成功吗?

这似乎与设置当前不可用的表过期时间类似。

0 投票
1 回答
264 浏览

google-cloud-platform - 通过 Google Cloud Dataflow 创建/写入分片(过时)BigQuery 表

是否有一个易于遵循的示例如何配置流模式 Dataflow Pipeline 以将每个窗口写入单独的 BigQuery 表(并在必要时创建一个)?

即——table_20160701、table_20160702等。

0 投票
1 回答
358 浏览

nullpointerexception - 使用 Apache Beam 的数据流 sdk 写入 BigTable 时捕获 NullPointerException

我正在使用Apache's Beamsdk 版本并尝试使用runner0.2.0-incubating-SNAPSHOT 将数据拉到一个 bigtable 中。Dataflow不幸的是,我NullPointerException在执行用作接收器的数据流管道时遇到了问题BigTableIO.WriteBigtableOptions根据我的需要,已经检查了我的参数并没有问题。

基本上,我创建并在我的管道的某个点上,我有步骤将其写入PCollection<KV<ByteString, Iterable<Mutation>>>我想要的大表:

在执行管道时,我得到了NullPointerException,在方法中准确地指出了 BigtableIO 类public void processElement(ProcessContext c)

我检查了此方法是否在处理所有元素之前在 bigtable 上写入,但不确定为什么我会超时执行此管道。根据下面的代码,此方法使用bigtableWriter属性来处理每个c.element(),但我什至无法设置断点来调试null. 有关如何解决此问题的任何建议或建议?

谢谢。

0 投票
2 回答
441 浏览

apache-beam - Apache Beam maven 依赖项:未在 skd jar 文件中下载 jdbc 包

使用 Eclipse 在 Eclipse 中下载 maven 依赖项

只下载 org.apache.beam.sdk.io,只下载 org.apache.beam.sdk.io.range。但是 .io.jdbc 没有在依赖项中下载。

除了上面提到的之外,我还必须为此使用任何其他特定的 artifactId 吗?

0 投票
2 回答
2252 浏览

apache-beam - 使用 Beam 从 oracle 获取 JDBC

下面的程序是连接到 Oracle 11g 并获取记录。它如何给我在 pipeline.apply() 的编码器提供 NullPointerException。

我已将 ojdbc14.jar 添加到项目依赖项中。

给出以下错误。任何线索?

0 投票
1 回答
1563 浏览

google-cloud-dataflow - 运行 wordcount 示例时的 Apache Beam 异常

我想我非常关注文档,但我仍然遇到了这个异常。(唯一不同的是我从 Eclipse J2EE 运行它,但我不会期望这真的很重要,不是吗?)

代码:(这不是我写的,它是来自梁项目示例)。我认为您必须指定一个谷歌云平台项目并提供正确的凭据才能访问它。但是,我在此示例项目中找不到任何进行设置的地方。

例外:

0 投票
1 回答
2241 浏览

google-cloud-dataflow - 使用 MySQL 作为输入源并写入 Google BigQuery

我有一个 Apache Beam 任务,它使用 JDBC 从 MySQL 源读取数据,它应该将数据按原样写入 BigQuery 表。此时不执行任何转换,稍后会进行转换,目前我只想将数据库输出直接写入 BigQuery。

这是尝试执行此操作的主要方法:

但是当我使用 maven 执行模板时,出现以下错误:

Test.java:[184,6] 找不到符号符号:方法 apply(com.google.cloud.dataflow.sdk.io.BigQueryIO.Write.Bound)
位置:类 org.apache.beam.sdk.io.jdbc。 JdbcIO.Read<com.google.cloud.dataflow.sdk.values.KV<java.lang.String,java.lang.String>>

看来我没有通过 BigQueryIO.Write 预期的数据收集,这就是我目前正在努力解决的问题。

在这种情况下,如何使来自 MySQL 的数据符合 BigQuery 的期望?

0 投票
1 回答
980 浏览

python - 模块对象没有属性 BigqueryV2 - 本地 Apache Beam

我正在尝试使用 Apache Beam 为 Google BigQuery 提供的 I/O API 在本地(Sierra)运行管道。

我按照Beam Python quickstart的建议使用 Virtualenv 设置了我的环境,我可以运行 wordcount.py 示例。我还可以使用beam.Create和正确运行自定义管道beam.ParDo

但我无法使用 BigQuery I/O 运行管道。知道我做错了什么吗?

python脚本如下。

当我运行它时,我收到以下错误。

0 投票
1 回答
266 浏览

apache-beam - Apache Beam 计数 HBase 行块并且不返回

开始试用 Apache Beam 并尝试使用它来读取和计算 HBase 表。当尝试在没有 Count.globally 的情况下读取表时,它可以读取行,但是当尝试计算行数时,进程挂起并且永远不会退出。

这是非常简单的代码:

当使用 Count.globally 时,该过程永远不会完成。将其注释掉时,该过程会打印所有行。

有什么想法吗?