问题标签 [google-cloud-dataflow]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

4588 问题

0 投票

1 回答

2340 浏览

google-cloud-dataflow - 跳过标题行 - Cloud DataFlow 可以吗？

我创建了一个管道，它从 GCS 中的文件读取，对其进行转换，最后写入 BQ 表。该文件包含一个标题行（字段）。

有没有办法像在加载时在 BQ 中那样以编程方式设置“要跳过的标题行数”？

要跳过的标题行数

google-cloud-dataflow

2015-02-11T09:19:24.300

0 投票

2 回答

1803 浏览

google-cloud-dataflow - 如何在 Dataflow 中执行联合？

我正在尝试在 Dataflow 中执行联合操作。是否有在 Dataflow 中合并两个 PCollection 的示例代码？

google-cloud-dataflow

2015-02-12T20:11:20.313

0 投票

2 回答

4625 浏览

apache-spark - 谷歌数据流与 Apache Storm

阅读 Google 的 Dataflow API，我的印象是它与 Apache Storm 所做的非常相似。通过流水线流进行实时数据处理。除非我完全错过了这里的重点，而不是建立关于如何执行相互编写的管道的桥梁，我希望有一些与谷歌不同的东西，而不是重新发明轮子。Apache Storm 已经很好地适应了任何编程语言。做这样的事情的真正价值是什么？

user1400995

2015-02-13T15:19:56.470

0 投票

1 回答

639 浏览

google-cloud-dataflow - 在管道中，是否可以访问另一个项目中的 Google Cloud Storage 存储桶？

在管道中，是否可以在另一个云项目中从/向云存储文件执行 TextIO？

使用“my-project:output.output_table”并正确设置服务帐户似乎可以访问另一个项目中的 BigQuery 表。

但是，使用 TextIO，我无法找到一种方法来指定项目 ID 以及我的文件模式“gs://some/inputData.txt”。

google-cloud-dataflow

2015-02-13T17:10:07.217

0 投票

2 回答

1501 浏览

google-bigquery - Cloud DataFlow 性能 - 我们的时代是否值得期待？

寻找一些关于如何最好地架构/设计和构建我们的管道的建议。

经过一些初步测试，我们没有得到预期的结果。也许我们只是在做一些愚蠢的事情，或者我们的期望太高了。

我们的数据/工作流程：

Google DFP 将我们的广告服务器日志（CSV 压缩）直接写入 GCS（每小时）。
这些日志一天的价值在 30-7000 万条记录范围内，一个月大约有 1.5-20 亿条记录。
对其中的 2 个字段执行转换，并将行写入 BigQuery。
转换涉及对其中 2 个字段执行 3 次 REGEX 操作（由于增加到 50 个操作），这会产生新的字段/列。

到目前为止，我们已经运行了什么：

构建了一个从 GCS 读取文件一天（31.3m）的管道，并使用 ParDo 执行转换（我们认为我们会从一天开始，但我们的要求也是处理数月和数年）。
DoFn 输入是一个字符串，它的输出是一个 BigQuery TableRow。
管道在云中以实例类型“n1-standard-1”（1vCPU）执行，因为我们认为每个工作人员 1 个 vCPU 就足够了，因为转换不是过于复杂，也不是 CPU 密集型，即只是字符串到字符串的映射.

我们使用几种不同的工作器配置运行了该作业，以查看它的执行情况：

5 名工作人员（5 个 vCPU）耗时约 17 分钟
5 个工作人员（10 个 vCPU）花费了大约 16 分钟（在这次运行中，我们将实例提升到“n1-standard-2”以获得双倍的内核，看看它是否提高了性能）
自动缩放设置为“BASIC”（50-100 个 vCPU）的 50 分钟和最多 100 个工作人员花费了大约 13 分钟
自动缩放设置为“BASIC”（100-150 个 vCPU）的 100 分钟和 150 个最大工作人员花费了大约 14 分钟

这些时间是否符合您对我们的用例和管道的期望？

google-bigquery google-cloud-storage google-cloud-dataflow

2015-02-17T03:20:09.850

0 投票

1 回答

179 浏览