0

我按照此处的说明成功设置了集群。只是想知道我可以通过 API 使用这种类型的集群调用 Spark 吗?请问在哪里可以找到 Spark 端点的详细信息?如果上述教程是死胡同,有人能指出我正确的方向吗?

我的最终 POC 目标是在一些 S3 存储桶中的平面文件(例如 csv)中添加 2 列,并通过 spark 将结果值与第三列进行比较(这不是家庭作业(-:) - 最好像我一样使用 Mobius [前] .net 开发)。

4

1 回答 1

1

此参考应为您提供所需的信息。这是一个片段:

"进入您下载的 Apache Spark 版本中的 ec2 目录。运行./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>,其中<keypair>是您的 EC2 密钥对的名称(您在创建它时提供的名称),<key-file>是您的密钥对的私钥文件,<num-slaves>是数字要启动的从节​​点数(首先尝试 1),并且<cluster-name>是给您的集群的名称。

例如

export AWS_SECRET_ACCESS_KEY=AaBbCcDdEeFGgHhIiJjKkLlMmNnOoPpQqRrSsTtU
export AWS_ACCESS_KEY_ID=ABCDEFG1234567890123 

./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a launch my-spark-cluster 

一切启动后,检查集群调度程序是否已启动并通过转到其 Web UI 来查看所有从属服务器,这将在脚本末尾打印(通常为http://master-hostname:8080)。"

于 2017-04-02T18:24:28.223 回答