“apache-spark-standalone”的相关标签问题

0 投票

2 回答

26627 浏览

windows - winutils spark windows installation env_variable

I am trying to install Spark 1.6.1 on windows 10 and so far I have done the following...

Downloaded spark 1.6.1, unpacked to some directory and then set SPARK_HOME
Downloaded scala 2.11.8, unpacked to some directory and then set SCALA_HOME
Set the _JAVA_OPTION env variable
Downloaded the winutils from https://github.com/steveloughran/winutils.git by just downloading the zip directory and then set HADOOP_HOME env variable. (Not sure if this was incorrect, I could not clone the directory because of permission denied).

When I go to spark home and run bin\spark-shell I get

I must be missing something, I don't see how I could be running the bash scripts anyway from windows environment. But hopefully I don't need to understand just to get this working. I have been following this guy's tutorial - https://hernandezpaul.wordpress.com/2016/01/24/apache-spark-installation-on-windows-10/ . Any help would be appreciated.

2016-05-18T16:14:29.380

0 投票

2 回答

3345 浏览

apache-spark - 如何在特定节点上运行 Spark 作业

例如，我的 Spark 集群有 100 个节点（工作者），当我运行一项作业时，我只想让它在 10 个特定节点上运行，我应该如何实现这一点。顺便说一句，我正在使用 Spark 独立模块。

为什么我需要上述要求：

apache-spark apache-spark-standalone

2016-05-29T14:33:08.983

0 投票

0 回答

328 浏览

apache-spark - 为什么 Spark 执行程序试图连接到 spark_master 而不是 SPARK_MASTER_IP？

使用 Spark 1.6.1 独立集群。在系统重新启动后（并且每个工作人员只对 /etc/hosts 进行了微小的配置更改）Spark 执行程序突然开始抛出他们无法连接到的错误spark_master。

当我echo $SPARK_MASTER_IP在用于启动 master 的同一 shell 上时，它正确地将主机标识为master.cluster. 当我在端口打开 GUI 时，8080它还将主控标识为Spark Master at spark://master.cluster:7077.

我也设置spark-env.sh了SPARK_MASTER_IP。为什么我的执行者试图连接到spark_master?

apache-spark apache-spark-standalone

2016-05-31T21:52:27.013

0 投票

0 回答

708 浏览

apache-spark - 我可以真正为 Apache Spark 独立集群设置多少个内核？

我在一台机器上设置了一个 Apache Spark 1.6.1 独立集群，具有以下规格：

CPU：Core i7-4790（核心数：4，线程数：8）
内存：16GB

我在 conf/spark-env.sh 中使用以下设置

由于机器有一个 4 核处理器，我认为可能的配置可能是：

所以我的想法是：

内存必须在工作实例的数量之间分配，
每个工作实例的工作核心数量乘以，因此，我不能有 4 个工作实例和 2 个工作核心，因为我没有 8 个核心。

问题是我测试了配置，并设置：

而且我遇到了任何错误，而且在 Apache Web UI 中它显示为“40 核”。怎么了？那么我真的可以拥有多少个工作核心和工作实例？

提前致谢。

apache-spark worker apache-spark-standalone

2016-06-04T14:29:08.193

0 投票

1 回答

1305 浏览

apache-spark - 并非 Spark Standalone 集群中使用的所有节点

我用两台虚拟机制作了一个 Spark 独立集群。
在第一个 VM（8 核，64 GB 内存）中，我使用命令手动启动了 master bin/spark-class org.apache.spark.deploy.master.Master。
在第二个 VM（8 核，64 GB 内存）中，我使用
bin/spark-class org.apache.spark.deploy.worker.Worker spark://<hostname of master>:7077.
然后在第一个 VM 中，我还使用上述从属命令启动了从属。从下图中可以看出，worker 和 master 都已启动并处于活动状态。

但是当我运行我的 Spark 应用程序时，仅运行第二个 VM 中的工作程序（worker-20160613102937-10.0.37.150-47668）。第一个 VM ( worker-20160613103042-10.0.37.142-52601) 的工作人员未运行。见下图

Spark 独立集群 UI

我希望这两个工人都应该在我的 Spark 应用程序中使用。如何才能做到这一点？

编辑：请参阅这张执行器摘要的图片，其中与 VM 1st 中的工作人员对应的执行器失败。

当我单击任何stdout或stderr时，它会显示的错误invalid log directory。见下图

apache-spark apache-spark-standalone

2016-06-13T06:31:42.277

0 投票

2 回答

623 浏览

apache-spark - 如何以集群模式运行分布式火花，但在本地获取文件？

是否可以让 spark 将本地文件作为输入，但对其进行处理？

我sc.textFile(file:///path-to-file-locally)的代码中有，而且我知道文件的确切路径是正确的。然而，我仍然得到

我正在运行 spark 分布式，而不是在本地运行。为什么存在错误？

apache-spark cluster-computing pyspark apache-spark-standalone

2016-07-05T18:57:27.687

0 投票

1 回答

65 浏览

apache-spark - 谁在 Spache Spark 中将分区加载到 RAM 中？

我有这个问题，我无法在任何地方找到答案。

我正在使用以下行在 PySpark 应用程序中加载数据：

我的集群配置如下：

我正在使用具有 3 个节点的 Spark 集群：1 个节点用于启动主节点，其他 2 个节点各运行 1 个工作节点。
我使用脚本在登录节点上从集群外部提交应用程序。
该脚本以我认为的集群部署模式提交 Spark 应用程序，然后在这种情况下，使驱动程序在我正在使用的 3 个节点中的任何一个上运行。
输入的 CSV 文件存储在全局可见的临时文件系统 (Lustre) 中。

在 Apache Spark Standalone 中，将分区加载到 RAM 的过程如何？

是不是每个执行程序都访问驱动程序的节点 RAM 并从那里将分区加载到自己的 RAM 中？（存储 --> 驱动程序的内存 --> 执行程序的内存）
是不是每个执行程序都访问存储并加载到自己的 RAM 中？（存储 --> 执行者的 RAM）

这些都不是，我在这里遗漏了一些东西吗？我怎样才能亲眼目睹这个过程（监控工具、unix 命令、Spark 中的某个地方）？

任何我可以深入了解的评论或资源都会非常有帮助。提前致谢。

apache-spark apache-spark-standalone

2016-07-20T20:57:11.233

0 投票

0 回答

691 浏览

hadoop - Apache Spark：历史服务器（日志）+非超级用户访问（HDFS）

我在远程服务器中有一个工作的 HDFS 和一个正在运行的 Spark 框架。我正在运行 SparkR 应用程序，并希望也能看到完整 UI 的日志。我按照这里的所有说明进行操作：Windows：Apache Spark History Server Config ，并且能够在服务器上启动 History Server。

但是，只有当超级用户（启动 Hadoop 的名称节点的人）和启动 Spark 进程的人远程启动 Spark 应用程序时，日志才会在 HDFS 路径中成功进行并且我们能够查看 Spark 的 History Web UI也是。

当我从我的用户 ID（远程）运行相同的应用程序时，虽然它在端口 18080 上显示历史服务器已启动并正在运行，但它不会记录我的任何应用程序。

我已获得对 HDFS 中文件夹的读取、写入和执行权限。

spark-defaults.conf 文件现在如下所示：

我是否错过了某处的某些权限或配置设置（Spark？HDFS）？

任何从这里开始的指针/提示将不胜感激。

hadoop apache-spark hdfs apache-spark-sql apache-spark-standalone

2016-07-25T07:58:24.767

0 投票

0 回答

388 浏览

apache-spark - 为什么“使用中的内存”= Spark Standalone 中的 1g？

我在独立运行 Apache Spark，当我连接到 myip:8080 时，我总是看到类似“正在使用的内存：总计 120.0 GB，已使用 1.0 GB”之类的信息。如果有更多可用内存，为什么只使用 1Gb？是否有可能（或希望）增加实际使用的内存量？

apache-spark pyspark apache-spark-standalone

2016-07-30T14:47:37.730

0 投票

1 回答

333 浏览

apache-spark - Spark Cluster Worker 节点上对象的早期初始化

我在一个独立的集群中使用 Drools 和 Spark。我想在启动时（即在 map reduce 任务之前）在所有工作节点上加载知识会话。我尝试将 Statefull 会话从驱动程序传递到从节点，但它不起作用。因此，我的第一份工作需要大约 900 毫秒才能将规则添加到 Knowledge Builder。

apache-spark drools apache-spark-standalone

2016-08-01T11:06:38.030

问题标签 [apache-spark-standalone]

Reference