在本地(IntelliJ IDEA)中运行相同的作业时,输出计数很好(例如 -55)。但是当使用 spark-submit 在 Yarn 上提交它时,只得到几行(行 -12)。
spark2-submit --master yarn --deploy-mode client --num-executors 5 --executor-memory 5G --executor-cores 5 --driver-memory 8G --class com.test.Main --packages com.crealytics:spark-excel_2.11:0.13.1 --driver-class-path /test/ImpalaJDBC41.jar,/test/TCLIServiceClient.jar --jars /test/ImpalaJDBC41.jar,/test/TCLIServiceClient.jar /test/test-1.0-SNAPSHOT.jar
当使用 master - yarn 获取部分行时。并且当使用本地时 - 能够读取所有行但得到异常 -Caused by: java.sql.SQLFeatureNotSupportedException: [Simba][JDBC](10220) Driver not capable.
在集群上运行时,似乎无法从 HDFS 读取所有块。
任何帮助都感激不尽。谢谢