“apache-spark-standalone”的相关标签问题

0 投票

1 回答

213 浏览

scala - spark中每个分区数的不同输出

我在本地机器和集群中运行 spark 代码。

我使用以下代码为本地机器创建 SparkContext 对象：

我使用以下代码为集群创建 SparkContext 对象：

我使用以下代码将本地机器和集群的分区数设置为 4

在我的集群中，我创建了 5 个工人。其中之一是驱动节点，其余的作为工作节点运行。

我希望结果应该是一样的。但是，本地和集群两部分的结果是不同的。问题的原因是什么？

2017-05-22T06:29:15.797

0 投票

1 回答

1004 浏览

apache-spark - 为什么 start-slave.sh 需要主 URL？

我想知道为什么客户端apache-spark/sbin/start-slave.sh <master's URL>必须指出这一点master's URL，因为主人已经在 : 中指出了这一点apache-spark/sbin/start-master.sh --master spark://my-master:7077e.g.？

是不是因为客户端必须等待master收到mastersubmit发送的？如果是：那为什么主人必须--master spark://....在其中指定submit？

apache-spark apache-spark-standalone

2017-05-22T09:15:13.033

0 投票

1 回答

1189 浏览

apache-spark - 为什么 Spark 独立 Worker 节点 1 在 RECEIVED SIGNAL 15: SIGTERM 之后终止？

注意：此错误是在 spark 执行组件之前引发的。

记录
工作节点 1：

主节点：

工作节点2：

apache-spark sigterm apache-spark-standalone

2017-05-24T04:49:41.607

0 投票

1 回答

574 浏览

apache-spark - 如何分别处理 Kafka 分区并与 Spark 执行器并行处理？

我使用 Spark 2.1.1。

我使用结构化流从 2 个 Kafka 分区读取消息。我将我的应用程序提交到 Spark Standalone 集群，其中包含一个工作人员和 2 个执行程序（每个 2 个核心）。

我想要这样的功能，来自每个 Kafka 分区的消息应该由每个单独的执行程序独立处理。但是现在发生的事情是，执行程序分别读取和映射分区数据，但是映射后形成的无界表是常用的并且具有来自两个分区的数据。

当我在表上运行结构化查询时，查询必须处理来自两个分区的数据（更多数据量）。

Kafka分区在哪里Product_id

有没有办法从执行器映射到的 Kafka 分区并行但单独地对数据运行相同的结构化查询？

apache-spark apache-spark-sql spark-structured-streaming apache-spark-standalone

2017-06-02T06:16:07.897

0 投票

1 回答

4996 浏览

windows - 如何在 Windows 机器上为 Spark 应用程序设置集群环境？

我一直在 pyspark 中使用 spark 独立非集群模式进行开发。这几天，想对spark的集群模式进行更多的探索。我在互联网上搜索，发现我可能需要一个集群管理器来使用 Apache Mesos 或 Spark Standalone 在不同的机器上运行集群。但是，我无法轻易找到图片的细节。

我应该如何从系统设计的角度进行设置，以便在多个 Windows 机器（或多个 Windows 虚拟机）中运行 Spark 集群。

windows apache-spark mesos apache-spark-standalone

2017-06-08T13:49:48.020

0 投票

1 回答

191 浏览

apache-kafka - one of spark worker is not working

I use standalone cluster with 2 workers. Use spark kafka cassandra hdfs stream

I send to Kafka approximately 40000 msg/sec the first thing that is saveToCassandra works slowly, because if i comment stream.saveToCassandra it works very good and fast. in spark driver UI i see that for 5MB output it takes approximately 20s. I tried to tune spark-cassandra options, but it also takes minimum 14s.

And the second is than i mentioned, that my one worker is do nothing, it log i see something like this:

and etc.

but if i stop another worker it begin to work.

I don't use spark-submit, just

startSpark extends App {

and the hole code, and then start it with

and in conf to workers i use ssc.sparkContext.addJars(pathToNeedableJars)

How can i boost writing to Cassandra and how to get my workers work together?

apache-kafka spark-streaming spark-cassandra-connector apache-spark-standalone

2017-06-20T17:36:11.133

0 投票

0 回答

175 浏览

scala - 如何更改 Spark 应用程序的状态

我所有的“已完成应用程序”在 Spark UI 中都处于“已完成”“状态”。即使我的“完成的驱动程序”处于失败的“状态”（因为在 scala 代码中我会System.exit(1)在任何异常的情况下执行），其关联的“完成的应用程序”也处于已完成的“状态”。

我希望能够在 scala 代码中将我的应用程序的状态更改为失败状态。注意我知道如何更改驱动程序的状态，我不知道如何更改其应用程序的状态。任何建议如何实现这一目标？

我在独立模式下使用 Spark-1.6.1 和 Spark-2.1.0。我使用斯卡拉。

scala apache-spark apache-spark-standalone

2017-07-04T14:59:56.027

0 投票

0 回答

999 浏览

scala - 在 Spark 独立集群中处理来自 hdfs 的数据时阻止丢失的异常

我正在使用 2 个工人和 2 个数据节点在 hadoop 上运行 spark。第一台机器包含：sparkmaster、namenode、worker-1、datanode-1。第二台机器包含：worker2，datanode2

在 hadoop 集群中，datanode-1 上的/usr目录下有 2 个文件：Notice.txt 和 datanode-2 上：README.txt

我想从这两个文件创建一个 rdd 并计算行数。

在第一台机器上，我使用 master spark://masterIP:7077 [独立模式]运行 spark shell

然后在 scala 命令行上使用 val rdd = sc.textFile("/usr/") 创建了 RDD，但是当我进行计数操作rdd.count()时，它会引发以下错误

worker-1 选择NOTICE.txt但 worker-2 没有选择README.txt

我没有遇到问题，任何帮助将不胜感激，谢谢

scala hadoop apache-spark apache-spark-standalone

2017-07-12T11:42:46.037

0 投票

2 回答

1556 浏览

scala - 独立集群上的 spark-submit 抱怨 scala-2.10 jar 不存在

我是 Spark 的新手，从 Apache 下载了预编译的 Spark 二进制文件（Spark-2.1.0-bin-hadoop2.7）

提交我的 scala (2.11.8) uber jar 时，集群抛出和错误：

我没有运行 Scala 2.10 并且 Spark 没有用 Scala 2.10 编译（据我所知）

难道我的依赖项之一是基于 Scala 2.10 吗？
有什么建议可能是错的吗？

scala apache-spark apache-spark-standalone

2017-07-25T03:57:37.787

0 投票

0 回答

765 浏览

apache-spark - 火花流作业突然退出 - 收到信号期限

应该连续运行的正在运行的火花流作业突然退出并出现以下错误（在执行程序日志中找到）：

在收到此信号之前，火花流作业运行了约 62 小时。

我在执行程序日志中找不到任何其他错误/警告。不幸的是，我还没有设置驱动程序日志，所以我无法更深入地检查这个特定问题。

我在独立模式下使用 Spark 集群。

驱动程序可能发送此信号的任何原因？（火花流运行良好且良好运行 60 多个小时后）

apache-spark spark-streaming apache-spark-standalone

2017-07-28T07:36:56.290

问题标签 [apache-spark-standalone]

Reference