我是 Spark 的新手。我能够从http://spark.incubator.apache.org/docs/0.7.3/ec2-scripts.html在 Amazon EC2 上启动、管理和关闭 Spark 集群。
但我无法在集群上添加以下作业。
package spark.examples
import spark.SparkContext
import SparkContext._
object SimpleJob {
def main(args: Array[String]) {
val logFile = "< Amazon S3 file url>"
val sc = new SparkContext(
"spark://<Host Name>:7077",
"Simple Job",
System.getenv("SPARK_HOME"), Seq("<Jar Address>")
)
val logData = sc.textFile(logFile)
val numsa = logData.filter(line => line.contains("a")).count
val numsb = logData.filter(line => line.contains("b")).count
println("total a : %s, total b : %s".format(numsa, numsb))
}
}
我创建了一个 SimpleJob.scala 并在我的本地 spark 目录中添加了 spark.examples 包。之后我运行命令:
./spark-ec2 -k <keypair> -i <key-file> login <cluster-name>
集群已启动,我可以登录集群。但我不知道如何在 EC2 集群上添加和运行此作业。