问题标签 [spark-ec2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 在使用 ./spark-ec2 部署的集群上更改 JDK
我已经使用 Spark 部署了一个 Amazon EC2 集群,如下所示:
我首先将我需要的文件复制到主服务器,然后使用以下命令从主服务器复制到 HDFS:
我有一个要运行的 jar,它是用 JDK 8 编译的(我使用了很多 Java 8 功能),所以我将它复制过来scp
并运行它:
问题是spark-ec2
使用 JDK7 加载集群,所以我得到了Unsupported major.minor version 52.0
我的问题是,我需要将JDK7更改为JDK8的所有地方都有哪些?
到目前为止,我在 master 上执行的步骤是:
- 用 yum 安装 JDK8
- 使用
sudo alternatives --config java
首选 java 并将其更改为 java-8 export JAVA_HOME=/usr/lib/jvm/openjdk-8
我必须对所有节点都这样做吗?我还需要更改 hadoop 使用的 java 路径ephemeral-hdfs/conf/hadoop-env.sh
还是我错过了其他任何地方?
linux - 使用 spark_ec2.py 加载集群时将 amazon-linux 更改为 ubuntu
当我从提供的 ec2 脚本启动时,(spark_ec2.py)
集群会使用 amazon-linux 节点分离出来。我希望它是 ubuntu。(spark_ec2.py => 我目前正在使用 brew 版本,希望这不是问题)
搜索后,我发现以下讨论类似问题的线程。但不幸的是,没有提供关于如何更改集群节点的默认操作系统的明确答案。 适用于 AWS EC-2 的 Spark AMI
除此之外,当我启动集群时,我尝试启动 spark-shell 并最终出现以下错误:
这是我第一次与 AWS 合作,经过多次尝试,我想出了启动集群所需的所有操作,但现在我正在处理上述两个问题,它们可能彼此相关,也可能不相关。
amazon-web-services - EC2 spark-shell 因连接异常而失败:java.net.ConnectException: Connection ref
我已按照 spark 网站 ( http://spark.apache.org/docs/latest/ec2-scripts.html ) 上的说明设置了一个简单的 ec2 集群。
但是当我启动 spark-shell ( ./spark/bin/spark-shell
) 时,我得到一个连接拒绝错误。
我通过登录添加了以下环境变量:
这是堆栈跟踪:
除此之外,我得到以下信息:
这可能是与端口相关的问题吗?因为;
这里它尝试使用端口连接到机器,9000
但是当我登录到 webUI 时,我看到它在端口上运行:35073
我不知道这是怎么发生的,因为当我使用由提供的 spark-ec2 脚本启动集群时我没有指定任何端口在我的机器上安装火花。
apache-spark - Spark:如何增加从属设备的驱动器大小
如何使用每个具有 100GB 驱动器的从属服务器启动集群。
我使用了一个大小为 100GB 的 AMI;然而,Spark 调整了它的大小并启动了一个 8GB 的驱动器。如何将该限制增加到 100GB?
apache-spark - Apache Spark-ec2 脚本:“错误未知 Spark 版本”。损坏的init.sh?
我想使用 spark-ec2 脚本启动 AWS EC2 实例。我收到此错误:
本地安装的spark来自spark-1.6.3-bin-hadoop2.6.tgz,所以安装不应该尝试访问spark-1.6.3-bin-hadoop1.tgz。在 init.sh 中,当 HADOOP_MAJOR_VERSION==1 时会安装这个 spark 版本:
问题是:
-- http://s3.amazonaws.com/spark-related-packages没有带有hadoop1的spark版本,所以这就是spark安装失败的根本原因。
--HADOOP_MAJOR_VERSION 似乎在安装过程中设置为 1,即使我的安装有 Hadoop 版本 2.x,导致上述问题。
--spark_ec2.py 在安装过程中从 github 提取最新的 spark-ec2,所以我看不到可能的本地修复。我没有信心直接从 github 分支和破解这个脚本。
关于如何解决这个问题的任何想法?
pyspark - PySpark 内核(JupyterHub)可以在纱线客户端模式下运行吗?
我当前的设置:
- 使用 HDFS 和 YARN 的 Spark EC2 集群
- JuputerHub(0.7.0)
- PySpark 内核与 python27
我用于这个问题的非常简单的代码:
在 Spark 独立版中按预期工作的 PySpark 内核在内核 json 文件中具有以下环境变量:
但是,当我尝试在 yarn-client 模式下运行时,它会永远卡住,而 JupyerHub 日志的日志输出是:
如此处所述,我添加了HADOOP_CONF_DIR 环境。变量指向 Hadoop 配置所在的目录,并将PYSPARK_SUBMIT_ARGS --master
属性更改为“ yarn-client ”。此外,我可以确认在此期间没有其他作业在运行,并且工人已正确注册。
我的印象是可以像其他人那样配置带有 PySpark 内核的 JupyterHub Notebook 以与 YARN 一起运行,如果确实是这种情况,我做错了什么?
hadoop - 使用 spark-submit 时出现 Hadoop 错误
我正在尝试使用 Amazon ec2 提交以下内容:
我最终得到以下错误。似乎是在寻找hadoop。我的 ec2 集群是使用 spark-ec2 命令创建的。
amazon-s3 - 亚马逊 AWS 无法访问我的 s3n 网址
我正在尝试使用我的 python 文件进行 spark-submit,在这个 python 文件中,我想访问存储在我的存储桶中的 data.txt。我正在使用以下命令访问我的文件,但我不断收到错误消息。
apache-spark - Spark on EC2 - S3 endpoint for Scala not resolving
Hi I have been able to setup successfully a Spark Cluster on AWS EC2 for 2 ongoing months but recently I started getting the following error in the creation script. It's basically failing in setting up the Scala packages and not resolving the source S3 endpoint:
This is my source Spark version in Github
And the above Scala error comes from the init.sh in
Can someone fix that S3 endpoint in the Github directory or is it no longer supported from the open-source Spark community?
amazon-web-services - EC2 专用租赁上的 Spark
我已经成功地使用以下发行版在 EC2 中安装了 Spark 集群:
但是,我可以看到没有为 Spark 主节点和集群节点提供 EC2 专用硬件租赁的选项,是这种情况还是我遗漏了什么?它总是在共享硬件上运行吗?
谢谢,