问题标签 [google-cloud-dataflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
485 浏览

google-cloud-platform - Is there documentation available for Google Cloud Dataflow?

Google Cloud Dataflow has been released in June 2014 (more information in this blog post), but I can't find any technical documentation on the developers section of the cloud.google.com website: https://cloud.google.com/developers/

Does someone knows where I can find more information, technical documentation about this product?

I'm really interested about how works topology, is it static or dynamic?.. etc..

enter image description here

0 投票
3 回答
1285 浏览

google-cloud-dataflow - 在 Maven 之外运行时,带有 DataflowPipelineRunner 的 Dataflow Stock WordCount 示例失败

我能够使用 DataflowPipelineRunner 和文档中显示的 maven exec:java 命令成功运行 WordCount 示例。

但是,当我尝试在自己的 1.8 VM 中运行它时,它不起作用。我正在使用这些参数(在 Windows 上):

我收到以下错误:

在随后的清理之前,我按预期在 GCE 上观察了三个线束实例。查看第一个串行控制台,wordcount-jroy-1224043800-12232038-8cfa-harness-0,我看到“正常”(与我在使用 Maven 运行时看到的相比)看起来以以下结尾的输出:

不知道我应该寻找什么,但这似乎以这种方式对我来说确实失败了。当我尝试运行自己的自定义管道(即不是 WordCount)以及在 Linux 上运行 WordCount 示例时,我看到了同样的问题。

我保存了我录制的文件:

  • WordCount 主类的完整输出
  • GCE 实例上设置的元数据字段值
  • 完整的串行控制台输出

它可以在这里找到

到目前为止我尝试过的事情,但没有成功:

  • 强制编译类的语言级别为 1.7(我使用 1.8 JRE)
  • 修改 DataflowPipelineRunner::detectClassPathResourcesToStage 以不发出 JRE jar 文件(这是我在日志中注意到的与 Maven 相比的差异;在 Maven 下运行时,JRE jar 不会暂存)。
  • 编辑:尝试将类路径设置为与 Maven 最终使用的完全相同(删除我们所有项目的依赖项)。这似乎稍微改变了行为,我得到java.lang.ClassNotFoundException: com.google.cloud.dataflow.examples.WordCount$ExtractWordsFn了工人输出。

强烈怀疑问题出在暂存的类路径上,但没有更具体的错误消息,我在黑暗中拍摄。将不胜感激下一步在哪里寻找或尝试其他事情的想法。

0 投票
1 回答
275 浏览

google-cloud-dataflow - Google Cloud Dataflow 中的作业状态信息中心

除了一一检查之外,是否可以在Google Cloud Dataflow中查看作业状态?我的意思是仪表板之类的东西,例如作业状态、完成的预计到达时间、当前使用的资源、错误(如果有的话)等。

此外,是否有计划发布类似于gsutil和的命令行工具bq

谢谢!

0 投票
2 回答
269 浏览

google-cloud-dataflow - 基于公共密钥分析数据的简单方法

处理映射到特定键的所有记录并为该数据输出多条记录的最简单方法是什么。

例如(一个综合示例),假设我的键是日期,值是带有测量温度的日内时间戳。我想将一天内的温度分类为高/平均/低(同样,低于/高于平均值的 1 个标准差)。

输出将是带有新分类的原始温度。

使用 Combine.PerKey(CombineFn) 允许使用 #extractOutput() 方法的每个键只输出一个。

谢谢

0 投票
2 回答
396 浏览

google-cloud-dataflow - Cloud Dataflow:java.lang.IllegalStateException:没有为 GroupedValues 注册的评估者

在本地运行管道时出现以下异常。提交云执行时也不例外。

谢谢, 格纳迪

代码大纲基本上是这样的:

聚合器类扩展CombineFn<MyValue, List<MyValue>, MyAggregated>

0 投票
1 回答
99 浏览

serialization - 在 Google Cloud Dataflow 编码器中支持 Nullable 字段

Google Cloud Dataflow附带一组标准编码器,非常棒。但是,它们都不支持nulls(本质java.io.DataOutput上不支持nulls)。

只是想知道,是否应该装饰每个可用的编码器,或者这可能已经在某个地方完成了?

谢谢,

0 投票
3 回答
1360 浏览

google-cloud-dataflow - Google Cloud Dataflow:413 请求实体太大

除了减少流中的转换数量(或者可能减少流图中所有转换对象的总序列化大小)之外,有关如何解决此错误的任何建议?

谢谢,

0 投票
4 回答
2855 浏览

google-cloud-dataflow - 从 Dataflow 中的压缩文件中读取

有没有办法(或任何类型的黑客)从压缩文件中读取输入数据?我的输入由数百个文件组成,这些文件是用 gzip 压缩生成的,解压它们有点乏味。

0 投票
2 回答
620 浏览

google-cloud-platform - How to report invalid data while processing data with Google dataflow?

I am looking at the documentation and the provided examples to find out how I can report invalid data while processing data with Google's dataflow service.

In addition to the actual in-/output, I want to produce a 2nd output file that contains records that which are considered invalid (e.g. missing data, malformed data, values were too high). I want to troubleshoot those records and process them separately.

  • Input: gs://.../input.csv
  • Output: gs://.../output.csv
  • List of invalid records: gs://.../invalid.csv

How can I redirect those invalid records into a separate output?

0 投票
3 回答
723 浏览

google-cloud-dataflow - Cloud Dataflow 到 BigQuery - 来源过多

我有一项工作,除其他外,还将它从文件中读取的一些数据插入到 BigQuery 表中,以便以后进行手动分析。

它失败并出现以下错误:

什么是“来源”?它是文件还是管道步骤?

谢谢,G