令人惊讶的是,在网络上找不到任何JAVA
关于此的最新文档。整个 World Wild Web 中的 1 或 2 个示例太旧了。我想出了以下失败并出现错误“ Module not Found org.apache.phoenix.spark
”,但该模块是 Jar for Sure 的一部分。我认为以下方法不正确,因为它是从不同示例中复制粘贴的,并且加载这样的模块有点反模式,因为我们已经将包作为 jar 的一部分。请告诉我正确的方法。
注意-请做 Scala 或 Phython 示例,它们很容易通过网络获得,
public class ECLoad {
public static void main(String[] args){
//Create a SparkContext to initialize
String warehouseLocation = new File("spark-warehouse").getAbsolutePath();
SparkSession spark = SparkSession
.builder()
.appName("ECLoad")
.master("local")
.config("spark.sql.warehouse.dir", warehouseLocation)
.getOrCreate();
spark.conf().set("spark.testing.memory", "2147480000"); // if you face any memory issue
Dataset<Row> df = spark.sqlContext().read().format("org.apache.phoenix.spark.*").option("table",
"CLINICAL.ENCOUNTER_CASES").option("zkUrl", "localhost:2181").load();
df.show();
}
}
我正在尝试将其运行为
spark-submit --class "encountercases.ECLoad" --jars phoenix-spark-5.0.0-HBase-2.0.jar,phoenix-core-5.0.0-HBase-2.0.jar --master local ./PASpark-1.0-SNAPSHOT.jar
我得到以下错误 -
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration