问题标签 [google-cloud-dataflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
485 浏览

google-cloud-platform - Is there documentation available for Google Cloud Dataflow?

Google Cloud Dataflow has been released in June 2014 (more information in this blog post), but I can't find any technical documentation on the developers section of the cloud.google.com website: https://cloud.google.com/developers/

Does someone knows where I can find more information, technical documentation about this product?

I'm really interested about how works topology, is it static or dynamic?.. etc..

enter image description here

0 投票
3 回答
1285 浏览

google-cloud-dataflow - 在 Maven 之外运行时,带有 DataflowPipelineRunner 的 Dataflow Stock WordCount 示例失败

我能够使用 DataflowPipelineRunner 和文档中显示的 maven exec:java 命令成功运行 WordCount 示例。

但是,当我尝试在自己的 1.8 VM 中运行它时,它不起作用。我正在使用这些参数(在 Windows 上):


在随后的清理之前,我按预期在 GCE 上观察了三个线束实例。查看第一个串行控制台,wordcount-jroy-1224043800-12232038-8cfa-harness-0,我看到“正常”(与我在使用 Maven 运行时看到的相比)看起来以以下结尾的输出:

不知道我应该寻找什么,但这似乎以这种方式对我来说确实失败了。当我尝试运行自己的自定义管道(即不是 WordCount)以及在 Linux 上运行 WordCount 示例时,我看到了同样的问题。


  • WordCount 主类的完整输出
  • GCE 实例上设置的元数据字段值
  • 完整的串行控制台输出



  • 强制编译类的语言级别为 1.7(我使用 1.8 JRE)
  • 修改 DataflowPipelineRunner::detectClassPathResourcesToStage 以不发出 JRE jar 文件(这是我在日志中注意到的与 Maven 相比的差异;在 Maven 下运行时,JRE jar 不会暂存)。
  • 编辑:尝试将类路径设置为与 Maven 最终使用的完全相同(删除我们所有项目的依赖项)。这似乎稍微改变了行为,我得到java.lang.ClassNotFoundException: com.google.cloud.dataflow.examples.WordCount$ExtractWordsFn了工人输出。


0 投票
1 回答
275 浏览

google-cloud-dataflow - Google Cloud Dataflow 中的作业状态信息中心

除了一一检查之外,是否可以在Google Cloud Dataflow中查看作业状态?我的意思是仪表板之类的东西,例如作业状态、完成的预计到达时间、当前使用的资源、错误(如果有的话)等。



0 投票
2 回答
269 浏览

google-cloud-dataflow - 基于公共密钥分析数据的简单方法


例如(一个综合示例),假设我的键是日期,值是带有测量温度的日内时间戳。我想将一天内的温度分类为高/平均/低(同样,低于/高于平均值的 1 个标准差)。


使用 Combine.PerKey(CombineFn) 允许使用 #extractOutput() 方法的每个键只输出一个。


0 投票
2 回答
396 浏览

google-cloud-dataflow - Cloud Dataflow:java.lang.IllegalStateException:没有为 GroupedValues 注册的评估者


谢谢, 格纳迪


聚合器类扩展CombineFn<MyValue, List<MyValue>, MyAggregated>

0 投票
1 回答
99 浏览

serialization - 在 Google Cloud Dataflow 编码器中支持 Nullable 字段

Google Cloud Dataflow附带一组标准编码器,非常棒。但是,它们都不支持nulls(本质java.io.DataOutput上不支持nulls)。



0 投票
3 回答
1360 浏览

google-cloud-dataflow - Google Cloud Dataflow:413 请求实体太大



0 投票
4 回答
2855 浏览

google-cloud-dataflow - 从 Dataflow 中的压缩文件中读取

有没有办法(或任何类型的黑客)从压缩文件中读取输入数据?我的输入由数百个文件组成,这些文件是用 gzip 压缩生成的,解压它们有点乏味。

0 投票
2 回答
620 浏览

google-cloud-platform - How to report invalid data while processing data with Google dataflow?

I am looking at the documentation and the provided examples to find out how I can report invalid data while processing data with Google's dataflow service.

In addition to the actual in-/output, I want to produce a 2nd output file that contains records that which are considered invalid (e.g. missing data, malformed data, values were too high). I want to troubleshoot those records and process them separately.

  • Input: gs://.../input.csv
  • Output: gs://.../output.csv
  • List of invalid records: gs://.../invalid.csv

How can I redirect those invalid records into a separate output?

0 投票
3 回答
723 浏览

google-cloud-dataflow - Cloud Dataflow 到 BigQuery - 来源过多

我有一项工作,除其他外,还将它从文件中读取的一些数据插入到 BigQuery 表中,以便以后进行手动分析。


