“google-cloud-dataproc”的相关标签问题

0 投票

1 回答

89 浏览

hadoop - Google Cloud Platform 上的计划 mapreduce 作业

我正在开发一个 node.js 应用程序，它基本上将用户事件日志存储在数据库中，并显示有关用户操作的见解。为了实现这一点，必须使用Mapreduce作业来分析事件日志，该作业将每天自动运行一次（每晚）。

我在谷歌云网站上找到了很多关于 mapreduce 的教程，但我完全迷失了，因为有几种技术，如果不使用命令行就找不到方法，而且也没有关于调度的信息（我希望整个分析过程完全自动化）

拜托，您能否就我应该使用哪些谷歌技术或在哪里可以找到好的教程提供建议？

谢谢

2016-03-22T13:43:32.297

0 投票

0 回答

3579 浏览

hadoop - 运行 Oozie 工作流时出现异常

我正在尝试运行我在 Hue 中创建的一个简单的工作流，它只调用一个不带参数的 Spark 作业，但在运行它时出现异常。它在 Google DataProc 集群上运行，并使用 Oozie 4.2.0 和 Hue 3.9 作为 UI 并运行它。

我已确保 mapreduce.framework.name 用于纱线。到目前为止，我在网上找到了一些解决方案，但所有这些都围绕工作流 XML 的问题。我是手工重建的，它也在做同样的事情。

这是我的工作流程的代码：

这是我收到的日志的输出：

编辑：这里要求的是我的 mapred-site.xml 文件：

编辑 2：无法让 Hue 导出 job.properties 文件，但这是我在命令行上测试时生成的文件。我相信生成的不会有太大的不同。

hadoop oozie hue oozie-coordinator google-cloud-dataproc

2016-03-22T20:03:58.247

0 投票

2 回答

1567 浏览

logging - 在 dataproc 上调整 Spark 日志级别的最优雅、最可靠的方法是什么？

如前面的答案所述，更改 Spark 集群详细程度的理想方法是更改相应的 log4j.properties。但是，在 dataproc 上 Spark 在 Yarn 上运行，因此我们必须调整全局配置而不是 /usr/lib/spark/conf

几个建议：

在 dataproc 上，我们有几个 gcloud 命令和属性，我们可以在集群创建期间传递。请参阅文档是否可以通过指定更改 /etc/hadoop/conf 下的 log4j.properties

也许不是，从文档中：

--properties 命令不能修改上面未显示的配置文件。

另一种方法是在集群初始化期间使用 shell 脚本并运行 sed：

但这是否足够，或者我们还需要更改环境变量 hadoop.root.logger 吗？

logging google-cloud-dataproc

2016-03-23T08:55:07.960

0 投票

1 回答

58 浏览

apache-spark - 从 gs 到 Dataproc 的文件 xfer - 什么文件大小成为障碍？

我一直在对在 Dataproc 集群上运行的 pySpark 作业进行基准测试，并注意到处理时间的顽固“地板”——尽管有几种不同的集群配置。我想知道这是否是由于 gs: storage 和 Dataproc 之间的文件 xfer 延迟？

源文件为 60G，存储在与我的 dataproc 集群相同的区域（us-central1）下的同一项目下的存储桶中。该文件有 14.3 亿行，有 7.31 亿条记录，每条记录 17 个字段，全部在一行中。除了标题行之外，额外的行都是空白的。

在 1 个主设备、4 个工作人员的配置中，所有设备都是带有 300GB 磁盘的 n-standard-8 机器，运行时间是 35:20 和 36:33。当我将集群加强到 8 个工作人员而不是 4 个（仍然都是 n-standard-8）时，它下降到 21:14。接下来，我将 wkrs 更改为 n-highmem-32s 的 4 个，同时将 mstr 保持在 n-standard-8，时钟在 20:01 最后，我真的加强了，切换到 1 mstr 和 16 wkrs，所有 n -highmem-32。这次跑步的最佳时间是 15:36

这是我所有测试/配置等的结果：