我是 Spark/Spark Cassandra 连接器的新手。我们在团队中第一次尝试使用 spark,我们正在使用 spark cassandra 连接器连接到 cassandra 数据库。
我写了一个查询,该查询使用了一个沉重的数据库表,我看到 Spark Task 直到对表的查询获取所有记录后才开始。
仅从数据库中获取所有记录就需要 3 个多小时。
从我们使用的数据库中获取数据。
CassandraJavaUtil.javaFunctions(sparkContextManager.getJavaSparkContext(SOURCE).sc())
.cassandraTable(keyspaceName, tableName);
即使所有数据都没有完成下载,有没有办法告诉 spark 开始工作?
是否可以选择告诉 spark-cassandra-connector 使用更多线程进行 fetch ?
谢谢,kokou。