问题标签 [apache-spark-standalone]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
213 浏览

scala - spark中每个分区数的不同输出

我在本地机器和集群中运行 spark 代码。

我使用以下代码为本地机器创建 SparkContext 对象:

我使用以下代码为集群创建 SparkContext 对象:

我使用以下代码将本地机器和集群的分区数设置为 4

在我的集群中,我创建了 5 个工人。其中之一是驱动节点,其余的作为工作节点运行。

我希望结果应该是一样的。但是,本地和集群两部分的结果是不同的。问题的原因是什么?

0 投票
1 回答
1004 浏览

apache-spark - 为什么 start-slave.sh 需要主 URL?

我想知道为什么客户端apache-spark/sbin/start-slave.sh <master's URL>必须指出这一点master's URL,因为主人已经在 : 中指出了这一点apache-spark/sbin/start-master.sh --master spark://my-master:7077e.g.

是不是因为客户端必须等待master收到mastersubmit发送的?如果是:那为什么主人必须--master spark://....在其中指定submit

0 投票
1 回答
1189 浏览

apache-spark - 为什么 Spark 独立 Worker 节点 1 在 RECEIVED SIGNAL 15: SIGTERM 之后终止?

注意:此错误是在 spark 执行组件之前引发的。

记录
工作节点 1:

主节点:

工作节点2:

0 投票
1 回答
574 浏览

apache-spark - 如何分别处理 Kafka 分区并与 Spark 执行器并行处理?

我使用 Spark 2.1.1。

我使用结构化流从 2 个 Kafka 分区读取消息。我将我的应用程序提交到 Spark Standalone 集群,其中包含一个工作人员和 2 个执行程序(每个 2 个核心)。

我想要这样的功能,来自每个 Kafka 分区的消息应该由每个单独的执行程序独立处理。但是现在发生的事情是,执行程序分别读取和映射分区数据,但是映射后形成的无界表是常用的并且具有来自两个分区的数据。

当我在表上运行结构化查询时,查询必须处理来自两个分区的数据(更多数据量)。

Kafka分区在哪里Product_id

有没有办法从执行器映射到的 Kafka 分区并行但单独地对数据运行相同的结构化查询?

0 投票
1 回答
4996 浏览

windows - 如何在 Windows 机器上为 Spark 应用程序设置集群环境?

我一直在 pyspark 中使用 spark 独立非集群模式进行开发。这几天,想对spark的集群模式进行更多的探索。我在互联网上搜索,发现我可能需要一个集群管理器来使用 Apache Mesos 或 Spark Standalone 在不同的机器上运行集群。但是,我无法轻易找到图片的细节。

我应该如何从系统设计的角度进行设置,以便在多个 Windows 机器(或多个 Windows 虚拟机)中运行 Spark 集群。

0 投票
1 回答
191 浏览

apache-kafka - one of spark worker is not working

I use standalone cluster with 2 workers. Use spark kafka cassandra hdfs stream

I send to Kafka approximately 40000 msg/sec the first thing that is saveToCassandra works slowly, because if i comment stream.saveToCassandra it works very good and fast. in spark driver UI i see that for 5MB output it takes approximately 20s. I tried to tune spark-cassandra options, but it also takes minimum 14s.

And the second is than i mentioned, that my one worker is do nothing, it log i see something like this:

and etc.

but if i stop another worker it begin to work.

I don't use spark-submit, just

startSpark extends App {

and the hole code, and then start it with

and in conf to workers i use ssc.sparkContext.addJars(pathToNeedableJars)

How can i boost writing to Cassandra and how to get my workers work together?

0 投票
0 回答
175 浏览

scala - 如何更改 Spark 应用程序的状态

我所有的“已完成应用程序”在 Spark UI 中都处于“已完成”“状态”。即使我的“完成的驱动程序”处于失败的“状态”(因为在 scala 代码中我会System.exit(1)在任何异常的情况下执行),其关联的“完成的应用程序”也处于已完成的“状态”。

我希望能够在 scala 代码中将我的应用程序的状态更改为失败状态。注意我知道如何更改驱动程序的状态,我不知道如何更改其应用程序的状态。任何建议如何实现这一目标?

我在独立模式下使用 Spark-1.6.1 和 Spark-2.1.0。我使用斯卡拉。

0 投票
0 回答
999 浏览

scala - 在 Spark 独立集群中处理来自 hdfs 的数据时阻止丢失的异常

我正在使用 2 个工人和 2 个数据节点在 hadoop 上运行 spark。第一台机器包含:sparkmaster、namenode、worker-1、datanode-1。第二台机器包含:worker2,datanode2

在 hadoop 集群中,datanode-1 上的/usr目录下有 2 个文件:Notice.txt 和 datanode-2 上:README.txt

我想从这两个文件创建一个 rdd 并计算行数。

在第一台机器上,我使用 master spark://masterIP:7077 [独立模式]运行 spark shell

然后在 scala 命令行上使用 val rdd = sc.textFile("/usr/") 创建了 RDD,但是当我进行计数操作rdd.count()时,它会引发以下错误

worker-1 选择NOTICE.txt但 worker-2 没有选择README.txt

我没有遇到问题,任何帮助将不胜感激,谢谢

0 投票
2 回答
1556 浏览

scala - 独立集群上的 spark-submit 抱怨 scala-2.10 jar 不存在

我是 Spark 的新手,从 Apache 下载了预编译的 Spark 二进制文件(Spark-2.1.0-bin-hadoop2.7)

提交我的 scala (2.11.8) uber jar 时,集群抛出和错误:

我没有运行 Scala 2.10 并且 Spark 没有用 Scala 2.10 编译(据我所知)

难道我的依赖项之一是基于 Scala 2.10 吗?
有什么建议可能是错的吗?

0 投票
0 回答
765 浏览

apache-spark - 火花流作业突然退出 - 收到信号期限

应该连续运行的正在运行的火花流作业突然退出并出现以下错误(在执行程序日志中找到):

在收到此信号之前,火花流作业运行了约 62 小时。

我在执行程序日志中找不到任何其他错误/警告。不幸的是,我还没有设置驱动程序日志,所以我无法更深入地检查这个特定问题。

我在独立模式下使用 Spark 集群。

驱动程序可能发送此信号的任何原因?(火花流运行良好且良好运行 60 多个小时后)