问题标签 [apache-spark-standalone]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - spark中每个分区数的不同输出
我在本地机器和集群中运行 spark 代码。
我使用以下代码为本地机器创建 SparkContext 对象:
我使用以下代码为集群创建 SparkContext 对象:
我使用以下代码将本地机器和集群的分区数设置为 4
在我的集群中,我创建了 5 个工人。其中之一是驱动节点,其余的作为工作节点运行。
我希望结果应该是一样的。但是,本地和集群两部分的结果是不同的。问题的原因是什么?
apache-spark - 为什么 start-slave.sh 需要主 URL?
我想知道为什么客户端apache-spark/sbin/start-slave.sh <master's URL>
必须指出这一点master's URL
,因为主人已经在 : 中指出了这一点apache-spark/sbin/start-master.sh --master spark://my-master:7077e.g.
?
是不是因为客户端必须等待master收到mastersubmit
发送的?如果是:那为什么主人必须--master spark://....
在其中指定submit
?
apache-spark - 为什么 Spark 独立 Worker 节点 1 在 RECEIVED SIGNAL 15: SIGTERM 之后终止?
注意:此错误是在 spark 执行组件之前引发的。
记录
工作节点 1:
主节点:
工作节点2:
apache-spark - 如何分别处理 Kafka 分区并与 Spark 执行器并行处理?
我使用 Spark 2.1.1。
我使用结构化流从 2 个 Kafka 分区读取消息。我将我的应用程序提交到 Spark Standalone 集群,其中包含一个工作人员和 2 个执行程序(每个 2 个核心)。
我想要这样的功能,来自每个 Kafka 分区的消息应该由每个单独的执行程序独立处理。但是现在发生的事情是,执行程序分别读取和映射分区数据,但是映射后形成的无界表是常用的并且具有来自两个分区的数据。
当我在表上运行结构化查询时,查询必须处理来自两个分区的数据(更多数据量)。
Kafka分区在哪里Product_id
有没有办法从执行器映射到的 Kafka 分区并行但单独地对数据运行相同的结构化查询?
windows - 如何在 Windows 机器上为 Spark 应用程序设置集群环境?
我一直在 pyspark 中使用 spark 独立非集群模式进行开发。这几天,想对spark的集群模式进行更多的探索。我在互联网上搜索,发现我可能需要一个集群管理器来使用 Apache Mesos 或 Spark Standalone 在不同的机器上运行集群。但是,我无法轻易找到图片的细节。
我应该如何从系统设计的角度进行设置,以便在多个 Windows 机器(或多个 Windows 虚拟机)中运行 Spark 集群。
apache-kafka - one of spark worker is not working
I use standalone cluster with 2 workers. Use spark kafka cassandra hdfs stream
I send to Kafka approximately 40000 msg/sec
the first thing that is saveToCassandra works slowly, because if i comment stream.saveToCassandra
it works very good and fast.
in spark driver UI i see that for 5MB output it takes approximately 20s.
I tried to tune spark-cassandra options, but it also takes minimum 14s.
And the second is than i mentioned, that my one worker is do nothing, it log i see something like this:
and etc.
but if i stop another worker it begin to work.
I don't use spark-submit, just
startSpark extends App {
and the hole code, and then start it with
and in conf to workers i use ssc.sparkContext.addJars(pathToNeedableJars)
How can i boost writing to Cassandra and how to get my workers work together?
scala - 如何更改 Spark 应用程序的状态
我所有的“已完成应用程序”在 Spark UI 中都处于“已完成”“状态”。即使我的“完成的驱动程序”处于失败的“状态”(因为在 scala 代码中我会System.exit(1)
在任何异常的情况下执行),其关联的“完成的应用程序”也处于已完成的“状态”。
我希望能够在 scala 代码中将我的应用程序的状态更改为失败状态。注意我知道如何更改驱动程序的状态,我不知道如何更改其应用程序的状态。任何建议如何实现这一目标?
我在独立模式下使用 Spark-1.6.1 和 Spark-2.1.0。我使用斯卡拉。
scala - 在 Spark 独立集群中处理来自 hdfs 的数据时阻止丢失的异常
我正在使用 2 个工人和 2 个数据节点在 hadoop 上运行 spark。第一台机器包含:sparkmaster、namenode、worker-1、datanode-1。第二台机器包含:worker2,datanode2
在 hadoop 集群中,datanode-1 上的/usr目录下有 2 个文件:Notice.txt 和 datanode-2 上:README.txt
我想从这两个文件创建一个 rdd 并计算行数。
在第一台机器上,我使用 master spark://masterIP:7077 [独立模式]运行 spark shell
然后在 scala 命令行上使用 val rdd = sc.textFile("/usr/") 创建了 RDD,但是当我进行计数操作rdd.count()时,它会引发以下错误
worker-1 选择NOTICE.txt但 worker-2 没有选择README.txt
我没有遇到问题,任何帮助将不胜感激,谢谢
scala - 独立集群上的 spark-submit 抱怨 scala-2.10 jar 不存在
我是 Spark 的新手,从 Apache 下载了预编译的 Spark 二进制文件(Spark-2.1.0-bin-hadoop2.7)
提交我的 scala (2.11.8) uber jar 时,集群抛出和错误:
我没有运行 Scala 2.10 并且 Spark 没有用 Scala 2.10 编译(据我所知)
难道我的依赖项之一是基于 Scala 2.10 吗?
有什么建议可能是错的吗?
apache-spark - 火花流作业突然退出 - 收到信号期限
应该连续运行的正在运行的火花流作业突然退出并出现以下错误(在执行程序日志中找到):
在收到此信号之前,火花流作业运行了约 62 小时。
我在执行程序日志中找不到任何其他错误/警告。不幸的是,我还没有设置驱动程序日志,所以我无法更深入地检查这个特定问题。
我在独立模式下使用 Spark 集群。
驱动程序可能发送此信号的任何原因?(火花流运行良好且良好运行 60 多个小时后)