问题标签 [spark-submit]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Spark submit from client machine
We have hadoop implemented on linux flatform. We use scala spark to develop models using spark machine learning libraries. I just use notepad++ and create *.scala file and execute them on data nodes. I want to know can I use eclipce or Intellij IDE from my local machine (windows machine) and connect to spark to test scala spark scripts.
apache-spark - 无法将 alluxio.security.login.username 添加到 spark-submit
我有一个火花驱动程序,我正在尝试为其设置 alluxio 用户。
我读了这篇文章:如何将 -D 参数或环境变量传递给 Spark 作业?尽管有帮助,但其中的任何方法似乎都没有奏效。
我的环境:
spark-submit 作业以 root 身份运行(在 supervisor 下),alluxio 只识别这个用户。
这是我尝试添加“-Dalluxio.security.login.username=alluxio”的地方:
- spark-defaults.conf 中的 spark.driver.extraJavaOptions
- 在 spark-submit 的命令行上(使用 --conf)
- 在我的 jar 应用程序的 sparkservices conf 文件中
- 在我的 jar 应用程序中名为“alluxio-site.properties”的新文件中
这些工作都没有为alluxio设置用户,尽管我可以很容易地在另一个也写入alluxio的(非spark)客户端应用程序中设置这个属性。
任何人都可以将此设置应用于 spark-submit 工作?
scala - NoClassDefFoundError:在 Spark 独立集群上部署后无法初始化 XXX 类
我写了一个用 sbt 构建的 spark 流应用程序。它在本地工作得很好,但是在集群上部署之后,它抱怨我在胖 jar 中清楚地写了一个类(使用 jar tvf 检查)。以下是我的项目结构。XXX对象是spark抱怨的对象
我的提交命令:
具体报错信息:
python - 为 spark-submit 压缩 python 依赖项后导入模块不起作用
我是 Spark 世界的新手,我正在尝试使用 Spark 2.1.0 和 Python 3.5 在 Amazon EMR 集群上启动一些测试。
为了做到这一点,我使用 conda 创建了一个虚拟环境,并使用启动脚本所需的所有依赖项压缩了站点包,但我无法让 spark 在 Yarn 模式下在集群上工作。
我尝试使用以下命令启动 spark-submit:
但我得到这个导入错误
我看到 spark 在正确的目录中查找,但我不明白为什么他无法解决依赖关系。
任何帮助都非常受欢迎!在 spark 中启动 python 脚本(带有依赖项)的任何更简单的替代方法也非常受欢迎!
谢谢 !
scala - 如何在集群模式下使用 Scala 的 Process API 执行外部命令?
我想在 Spark 应用程序中使用 Scala 的Process API 运行外部命令。
当我spark-submit
到一个集群时,应用程序工作正常,但--deploy-mode cluster
它失败了。为什么?
我得到错误:
要执行的整个命令序列如下:
hdfs dfs -cat /data/test/zipfiletest/pgp_sample_file.PGP
并且gpg
单独工作正常,似乎问题出在中间的管道上。
apache-spark - 我应该在 Spark 中使用 StringBuilder 还是 StringBuffer?
我正在尝试从类中的 HDFS 读取一个普通文件,我将通过 spark-submit 执行该文件。
我有一个执行字符串操作的方法,它从这个字符串输出中创建 RDD。
在创建 RDD 之前,我正在执行以下字符串操作。
我应该对变量 valueString 使用 StringBuilder 还是 StringBuffer ?
scala - 使用 Oozie 启动 Spark 作业失败(错误 MetricsSystem)
我有一个使用spark-submit启动的 spark jar,它工作正常(读取文件、生成 RDD、存储在 hdfs 中)。但是,当我尝试在 Oozie 作业(oozie:spark-action)中启动同一个 jar 时,火花作业会失败。
当我查看日志时,出现的第一个错误是:
错误 MetricsSystem:无法实例化接收器类 org.apache.spark.metrics.sink.MetricsServlet。
此外,当我开始使用 spark 脚本时,我发现问题与saveAsText函数有关。当我在没有写入 HDFS 的情况下使用相同的 spark 作业进行午餐时,整个工作流程运行良好。
有什么建议么 ?
apache-spark - spark-shell、依赖 jars 和类未找到异常
我正在尝试在 spark shell 上运行我的 spark 应用程序。这是我在阅读此错误数小时后尝试的方法以及更多变体……但似乎没有一个有效。
而得到的是
请问有什么想法吗?谢谢!
更新:发现罐子必须用冒号(:)分隔,而不是逗号(,)分隔,如几篇文章/文档中所述
但是,现在错误发生了变化。注意 ls -la 会找到路径,尽管以下行抱怨不退出。离奇..
更新 2:
上面的命令在 spark-shell 上产生以下内容。
罐子似乎没有被加载:(根据我在http://localhost:4040/environment/看到的
scala - 从 spark-submit 运行应用程序时从 jar 读取输入文件
我有一个自定义分隔的输入文件,并传递给 newAPIHadoopFile 以转换为 RDD[String]。该文件位于项目资源目录下。从 Eclipse IDE 运行时,以下代码运行良好。
但是,当我在 spark-submit(使用 uber jar)上运行它时,如下所示
我收到以下错误。
请问有什么输入吗?
pyspark - 在 Pyspark 中添加一个 python 外部库
我正在使用 pyspark (1.6),我想使用 databricks:spark-csv 库。为此,我尝试了不同的方法但没有成功
1-我尝试添加从https://spark-packages.org/package/databricks/spark-csv下载的 jar ,然后运行
但是得到了这个错误:
2-第二种方式:我从https://spark-packages.org/package/databricks/spark-csv下载了一个库 zip 文件。
并运行:
但是得到了同样的错误。3-第三种方式:
但它也不起作用,我得到了这个: