问题标签 [dataproc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-platform - 使用 Dataproc 在 Zeppelin 上的插件问题
我正在使用 Dataproc 并尝试使用正确的变量将我的笔记本保存在 GCS 和 GitHub 上。但它不起作用。
我正在使用 Zeppelin 组件。
我收到了这个错误:
主文件和文件夹插件中的检查不存在。
任何人都可以帮助我吗?如何安装或配置此插件?
google-cloud-platform - 在 Dataproc 现有集群上安装 PIP 包
有没有办法使用
或类似的东西在现有的dataproc集群上安装包?或者我需要在 PIP_PACKAGES 上重新创建和设置包吗?
apache-spark - 线程“主”org.apache.spark.sql.AnalysisException 中的异常:路径不存在
我在 Google dataproc 集群版本 1.4 和 spark 版本 2.4.5 中运行 spark 作业,它从 GS 存储桶的路径中读取带有正则表达式的文件并低于错误。
我能够使用 spark 版本 2.2.3 在 dataproc 1.2 集群中运行相同的作业,并且能够从路径中读取文件。
我们应该在 spark 2.4.5 中形成正则表达式的方式是否有任何变化,或者 dataproc 1.4 集群的 google api 是否有任何变化,这需要改变我用正则表达式创建这些路径的方式。
docker - 从 docker 容器在 dataproc 中运行 pyspark 数据帧
1-我创建了一个使用 docker 作为初始化操作的 dataproc 集群
根据:https ://github.com/GoogleCloudDataproc/initialization-actions/tree/master/docker docker 应该在主节点和工作节点中配置
2-我在主服务器中有 SSH,安装了 docker-compose 并在那里克隆了我的应用程序。我的应用程序是一个烧瓶(python)服务器,它根据 API 请求处理一些数据并发回响应。
由于我的逻辑在 docker 容器内,我想从容器内调用 dataproc 主控器。 我已经在我的容器中安装了 pyspark,但我不确定如何从我的 docker 容器中运行 pyspark 代码,这些代码可以由主机上的 dataproc master + workers 执行?
apache-spark - 如果我在更改 spark-env.sh 或 spark-defaults 后在 yarn 上运行 spark,是否需要重新启动节点?
我正在努力更改 spark 的 conf,以限制我的 spark 结构化流日志文件的日志。我已经想到了这样做的属性,但它现在不起作用。我需要重新启动所有节点(名称和工作节点)还是重新启动作业就足够了。我们正在使用 google dataproc 集群并使用 yarn 运行 spark。
python-3.x - 无法从“google.cloud”(未知位置)导入名称“dataproc_v1”
尝试从计算机通过 Jupyter Notebook 访问 Using Dataproc,我使用 pip 安装了所需的库。但是,导入时出错
错误如下:
还尝试安装包 python3 -m pip install google-cloud-dataproc。作为参考,这里是 pip list 的输出。任何建议/帮助表示赞赏!
google-cloud-platform - YARN 上 GCP Dataproc 上的自动缩放指标
为什么 GCP Dataproc 的集群基于内存请求而不是核心使用 YARN 作为 RM 自动扩展?是 Dataproc 或 YARN 的限制还是我遗漏了什么?
参考:https ://cloud.google.com/dataproc/docs/concepts/configuring-clusters/autoscaling
自动缩放将 Hadoop YARN 配置为基于YARN 内存请求而不是 YARN 核心请求来调度作业。
自动缩放以以下 Hadoop YARN 指标为中心:
分配的内存是指在整个集群中运行容器所占用的总 YARN 内存。如果有 6 个正在运行的容器最多可以使用 1GB,则分配的内存为 6GB。
可用内存是集群中未分配容器使用的 YARN 内存。如果所有节点管理器有 10GB 的内存和 6GB 的分配内存,则有 4GB 的可用内存。如果集群中有可用(未使用)的内存,自动缩放可能会从集群中移除工作人员。
待处理内存是待处理容器的 YARN 内存请求的总和。待处理的容器正在等待空间在 YARN 中运行。仅当可用内存为零或太小而无法分配给下一个容器时,挂起的内存才非零。如果有待处理的容器,自动缩放可能会将工作人员添加到集群中。
hadoop - Dataproc Worker Node 的磁盘利用率日益增加
我们有 1 个主节点和 7 个工作节点的 Dataproc 集群。所有工作节点都有 1 个引导磁盘和 1 个 375 GB (sdb) 的本地磁盘。工作节点 0,1,2,3 的 sdb(mounted on /mnt/1) 磁盘利用率已达到 85% 以上,5,6,7 也逐渐增加到 85%。
我们发现以下目录下的文件占主要部分(304G)
/mnt/1/hadoop/dfs/data/current/BP-XXXXXXX-XX.XX.XX.X-XXXXXXXX/current/finalized .
我们发现它下面有文件夹
cd subdir6
ls -larth 总计 688K
XXXX/current/finalized/subdir6# cd subdir0 XXXXXX/current/finalized/subdir6/subdir0# ls -larth 总计 726M
--------------- 很多很多这样的文件 ---------------
- 我们可以删除那些文件吗?
- 这些文件的目的是什么?
删除这些的最佳方法是什么?
非常感谢您的信息。我已经运行了命令。
事件日志似乎占用了将近 1TB
=============== 上面是修剪输出。其余 6 个节点的磁盘使用率几乎相同。
删除事件日志是否安全?我的意思是它会妨碍任何正在运行的作业或集群吗?
我运行下面的命令来查找有多少文件,我发现它很大。
~# hadoop fs -du -h /user/spark/eventlog|wc -l
236757
所有文件的大小几乎为 5~6MB。是否有任何命令可以删除至少 7 天前的匹配文件?
apache-spark - 在 Dataproc 中运行 300 多个并发 Spark 作业的最佳方法?
我有一个带有 2 个工作节点 (n1s2) 的 Dataproc 集群。有一个外部服务器在一小时内提交大约 360 个 Spark 作业(每次提交之间有几分钟的间隔)。第一项工作成功完成,但随后的工作卡住了,根本不继续。
每个作业都会处理一些时间序列数字并写入 Cassandra。而在集群完全空闲的情况下,所花费的时间通常是 3-6 分钟。
我觉得这可以通过扩展集群来解决,但对我来说会变得非常昂贵。最好地解决这个用例的其他选择是什么?
python-3.x - dataproc 在 python 中创建集群 gcloud 等效命令
如何在 python 中复制以下 gcloud 命令?
这是我到目前为止在 python 中的内容:
不确定如何将这些 gcloud 命令转换为 python: