amazon-web-services - 将 spark 与 aws 集群一起使用

Question

我按照此处的说明成功设置了集群。只是想知道我可以通过 API 使用这种类型的集群调用 Spark 吗？请问在哪里可以找到 Spark 端点的详细信息？如果上述教程是死胡同，有人能指出我正确的方向吗？

我的最终 POC 目标是在一些 S3 存储桶中的平面文件（例如 csv）中添加 2 列，并通过 spark 将结果值与第三列进行比较（这不是家庭作业（-:) - 最好像我一样使用 Mobius [前] .net 开发）。

score 1 · Accepted Answer

此参考应为您提供所需的信息。这是一个片段：

"进入您下载的 Apache Spark 版本中的 ec2 目录。运行./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>，其中<keypair>是您的 EC2 密钥对的名称（您在创建它时提供的名称），<key-file>是您的密钥对的私钥文件，<num-slaves>是数字要启动的从节点数（首先尝试 1），并且<cluster-name>是给您的集群的名称。

例如：

export AWS_SECRET_ACCESS_KEY=AaBbCcDdEeFGgHhIiJjKkLlMmNnOoPpQqRrSsTtU
export AWS_ACCESS_KEY_ID=ABCDEFG1234567890123 

./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a launch my-spark-cluster

一切启动后，检查集群调度程序是否已启动并通过转到其 Web UI 来查看所有从属服务器，这将在脚本末尾打印（通常为http://master-hostname:8080）。"

amazon-web-services - 将 spark 与 aws 集群一起使用

1 回答 1

Related

Reference