我按照此处的说明成功设置了集群。只是想知道我可以通过 API 使用这种类型的集群调用 Spark 吗?请问在哪里可以找到 Spark 端点的详细信息?如果上述教程是死胡同,有人能指出我正确的方向吗?
我的最终 POC 目标是在一些 S3 存储桶中的平面文件(例如 csv)中添加 2 列,并通过 spark 将结果值与第三列进行比较(这不是家庭作业(-:) - 最好像我一样使用 Mobius [前] .net 开发)。
我按照此处的说明成功设置了集群。只是想知道我可以通过 API 使用这种类型的集群调用 Spark 吗?请问在哪里可以找到 Spark 端点的详细信息?如果上述教程是死胡同,有人能指出我正确的方向吗?
我的最终 POC 目标是在一些 S3 存储桶中的平面文件(例如 csv)中添加 2 列,并通过 spark 将结果值与第三列进行比较(这不是家庭作业(-:) - 最好像我一样使用 Mobius [前] .net 开发)。
此参考应为您提供所需的信息。这是一个片段:
"进入您下载的 Apache Spark 版本中的 ec2 目录。运行./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>
,其中<keypair>
是您的 EC2 密钥对的名称(您在创建它时提供的名称),<key-file>
是您的密钥对的私钥文件,<num-slaves>
是数字要启动的从节点数(首先尝试 1),并且<cluster-name>
是给您的集群的名称。
例如:
export AWS_SECRET_ACCESS_KEY=AaBbCcDdEeFGgHhIiJjKkLlMmNnOoPpQqRrSsTtU
export AWS_ACCESS_KEY_ID=ABCDEFG1234567890123
./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a launch my-spark-cluster
一切启动后,检查集群调度程序是否已启动并通过转到其 Web UI 来查看所有从属服务器,这将在脚本末尾打印(通常为http://master-hostname:8080)。"