我正在使用 Spark Cassandra 连接器。从 Cassandra 表中获取数据需要 5-6 分钟。在 Spark 中,我在日志中看到了许多任务和 Executor。原因可能是 Spark 将进程划分为许多任务!
下面是我的代码示例:
public static void main(String[] args) {
SparkConf conf = new SparkConf(true).setMaster("local[4]")
.setAppName("App_Name")
.set("spark.cassandra.connection.host", "127.0.0.1");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<Demo_Bean> empRDD = javaFunctions(sc).cassandraTable("dev",
"demo");
System.out.println("Row Count"+empRDD.count());
}