问题标签 [apache-spark-standalone]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
26627 浏览

windows - winutils spark windows installation env_variable

I am trying to install Spark 1.6.1 on windows 10 and so far I have done the following...

  1. Downloaded spark 1.6.1, unpacked to some directory and then set SPARK_HOME
  2. Downloaded scala 2.11.8, unpacked to some directory and then set SCALA_HOME
  3. Set the _JAVA_OPTION env variable
  4. Downloaded the winutils from https://github.com/steveloughran/winutils.git by just downloading the zip directory and then set HADOOP_HOME env variable. (Not sure if this was incorrect, I could not clone the directory because of permission denied).

When I go to spark home and run bin\spark-shell I get

I must be missing something, I don't see how I could be running the bash scripts anyway from windows environment. But hopefully I don't need to understand just to get this working. I have been following this guy's tutorial - https://hernandezpaul.wordpress.com/2016/01/24/apache-spark-installation-on-windows-10/ . Any help would be appreciated.

0 投票
2 回答
3345 浏览

apache-spark - 如何在特定节点上运行 Spark 作业

例如,我的 Spark 集群有 100 个节点(工作者),当我运行一项作业时,我只想让它在 10 个特定节点上运行,我应该如何实现这一点。顺便说一句,我正在使用 Spark 独立模块。

为什么我需要上述要求:

0 投票
0 回答
328 浏览

apache-spark - 为什么 Spark 执行程序试图连接到 spark_master 而不是 SPARK_MASTER_IP?

使用 Spark 1.6.1 独立集群。在系统重新启动后(并且每个工作人员只对 /etc/hosts 进行了微小的配置更改)Spark 执行程序突然开始抛出他们无法连接到的错误spark_master

当我echo $SPARK_MASTER_IP在用于启动 master 的同一 shell 上时,它正确地将主机标识为master.cluster. 当我在端口打开 GUI 时,8080它还将主控标识为Spark Master at spark://master.cluster:7077.

我也设置spark-env.shSPARK_MASTER_IP。为什么我的执行者试图连接到spark_master?

0 投票
0 回答
708 浏览

apache-spark - 我可以真正为 Apache Spark 独立集群设置多少个内核?

我在一台机器上设置了一个 Apache Spark 1.6.1 独立集群,具有以下规格:

  • CPU:Core i7-4790(核心数:4,线程数:8)
  • 内存:16GB

我在 conf/spark-env.sh 中使用以下设置

由于机器有一个 4 核处理器,我认为可能的配置可能是:

所以我的想法是:

  • 内存必须在工作实例的数量之间分配,
  • 每个工作实例的工作核心数量乘以,因此,我不能有 4 个工作实例和 2 个工作核心,因为我没有 8 个核心。

问题是我测试了配置,并设置:

而且我遇到了任何错误,而且在 Apache Web UI 中它显示为“40 核”。怎么了?那么我真的可以拥有多少个工作核心和工作实例?

提前致谢。

0 投票
1 回答
1305 浏览

apache-spark - 并非 Spark Standalone 集群中使用的所有节点

我用两台虚拟机制作了一个 Spark 独立集群。
在第一个 VM(8 核,64 GB 内存)中,我使用命令手动启动了 master bin/spark-class org.apache.spark.deploy.master.Master
在第二个 VM(8 核,64 GB 内存)中,我使用
bin/spark-class org.apache.spark.deploy.worker.Worker spark://<hostname of master>:7077.
然后在第一个 VM 中,我还使用上述从属命令启动了从属。从下图中可以看出,worker 和 master 都已启动并处于活动状态。

但是当我运行我的 Spark 应用程序时,仅运行第二个 VM 中的工作程序(worker-20160613102937-10.0.37.150-47668)。第一个 VM ( worker-20160613103042-10.0.37.142-52601) 的工作人员未运行。见下图

Spark 独立集群 UI

我希望这两个工人都应该在我的 Spark 应用程序中使用。如何才能做到这一点?

编辑:请参阅这张执行器摘要的图片,其中与 VM 1st 中的工作人员对应的执行器失败。

执行者摘要

当我单击任何stdoutstderr时,它会显示 的错误invalid log directory。见下图

错误

0 投票
2 回答
623 浏览

apache-spark - 如何以集群模式运行分布式火花,但在本地获取文件?

是否可以让 spark 将本地文件作为输入,但对其进行处理?

sc.textFile(file:///path-to-file-locally)的代码中有,而且我知道文件的确切路径是正确的。然而,我仍然得到

我正在运行 spark 分布式,而不是在本地运行。为什么存在错误?

0 投票
1 回答
65 浏览

apache-spark - 谁在 Spache Spark 中将分区加载到 RAM 中?

我有这个问题,我无法在任何地方找到答案。

我正在使用以下行在 PySpark 应用程序中加载数据:

我的集群配置如下:

  • 我正在使用具有 3 个节点的 Spark 集群:1 个节点用于启动主节点,其他 2 个节点各运行 1 个工作节点。
  • 我使用脚本在登录节点上从集群外部提交应用程序。
  • 该脚本以我认为的集群部署模式提交 Spark 应用程序,然后在这种情况下,使驱动程序在我正在使用的 3 个节点中的任何一个上运行。
  • 输入的 CSV 文件存储在全局可见的临时文件系统 (Lustre) 中。

在 Apache Spark Standalone 中,将分区加载到 RAM 的过程如何?

  1. 是不是每个执行程序都访问驱动程序的节点 RAM 并从那里将分区加载到自己的 RAM 中?(存储 --> 驱动程序的内存 --> 执行程序的内存)
  2. 是不是每个执行程序都访问存储并加载到自己的 RAM 中?(存储 --> 执行者的 RAM)

这些都不是,我在这里遗漏了一些东西吗?我怎样才能亲眼目睹这个过程(监控工具、unix 命令、Spark 中的某个地方)?

任何我可以深入了解的评论或资源都会非常有帮助。提前致谢。

0 投票
0 回答
691 浏览

hadoop - Apache Spark:历史服务器(日志)+非超级用户访问(HDFS)

我在远程服务器中有一个工作的 HDFS 和一个正在运行的 Spark 框架。我正在运行 SparkR 应用程序,并希望也能看到完整 UI 的日志。我按照这里的所有说明进行操作:Windows:Apache Spark History Server Config ,并且能够在服务器上启动 History Server。

但是,只有当超级用户(启动 Hadoop 的名称节点的人)和启动 Spark 进程的人远程启动 Spark 应用程序时,日志才会在 HDFS 路径中成功进行并且我们能够查看 Spark 的 History Web UI也是。

当我从我的用户 ID(远程)运行相同的应用程序时,虽然它在端口 18080 上显示历史服务器已启动并正在运行,但它不会记录我的任何应用程序。

我已获得对 HDFS 中文件夹的读取、写入和执行权限。

spark-defaults.conf 文件现在如下所示:

我是否错过了某处的某些权限或配置设置(Spark?HDFS)?

任何从这里开始的指针/提示将不胜感激。

0 投票
0 回答
388 浏览

apache-spark - 为什么“使用中的内存”= Spark Standalone 中的 1g?

我在独立运行 Apache Spark,当我连接到 myip:8080 时,我总是看到类似“正在使用的内存:总计 120.0 GB,已使用 1.0 GB”之类的信息。如果有更多可用内存,为什么只使用 1Gb?是否有可能(或希望)增加实际使用的内存量?

0 投票
1 回答
333 浏览

apache-spark - Spark Cluster Worker 节点上对象的早期初始化

我在一个独立的集群中使用 Drools 和 Spark。我想在启动时(即在 map reduce 任务之前)在所有工作节点上加载知识会话。我尝试将 Statefull 会话从驱动程序传递到从节点,但它不起作用。因此,我的第一份工作需要大约 900 毫秒才能将规则添加到 Knowledge Builder。