问题标签 [spark-submit]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
spark-submit - spark-submit 可以用作作业调度程序吗?
我有一个 spark 独立集群,没有安装其他作业调度程序。我想知道是否spark-submit
可以用作 spark 和 non-spark 作业的作业调度程序(例如,不是为 Spark 编写的 scala jar 并且不使用 RDD)?
根据我的测试,spark-submit
用于提交非 Spark 作业并且作业运行成功。但这是我的问题:
- 以下选项仍然有意义吗?
--driver-cores --driver-memory --executor-memory --total-executor-cores
- 如果否为 1,是否意味着
spark-submit
可以使用 FIFO 维护一个 spark 和 non-spark 作业队列,但它不管理 non-spark 作业的资源? - 如果 2 为真,我是否应该使用另一个调度程序(例如 SGE 或 LSF)来提交非 Spark 作业?
谢谢!
apache-spark - Spark 异步作业失败并出现错误
我正在用java编写spark代码。当我使用foreachAsync
火花失败并给我java.lang.IllegalStateException: Cannot call methods on a stopped SparkContext.
在这段代码中:
它工作正常。但在这段代码中:
它返回错误。我哪里错了?
apache-spark - 尝试在纱线集群上运行 spark-submit 作业,但我不断收到以下警告。我该如何解决这个问题?
我查看了类似的问题并尝试了提到的所有其他内容。当我查看 hdfs 上的 yarn-nodemanager 日志时,我看到以下可能导致错误的警告。如何修复这些警告?
纱线站点.xml 日志:
core-site.xml 日志:
hdfs-site.xml 日志:
如果我试图在错误的方向上为我的初始警告找到解决方案,请告诉我,因为应用程序继续运行但没有数据发送到 hdfs。谢谢!
scala - Spark-Application 到本地目录
问题
由于 Mkdirs 未能创建 Spark 应用程序错误。我正在使用 spark 1.6.3 无法在本地目录中保存输出
更新日志
代码:
解决方案
确保整个集群都可以访问本地或特定目录。就我而言,集群或火花执行器无权访问特定目录。
scala - java.lang.ClassNotFoundException:java.net.URLClassLoader.findClass 的 SparkSql(未知来源)
SparkSql.scala
构建.sbt
系统使用的软件版本 spark:2.1.0 scala:2.11.8
我正在使用 IntelliJ。代码运行良好,但是当我将作业提交到我的独立集群时,它显示以下错误:
火花提交错误:
错误
pyspark - Pyspark:使用 spark-submit 运行文件时执行 Jupyter 命令时出错
我能够运行 pyspark 并在 Jupyter 笔记本上运行脚本。但是当我尝试使用 spark-submit 从终端运行文件时,出现此错误:
执行 Jupyter 命令文件路径时出错[Errno 2] 没有这样的文件或目录
谁能帮我看看我的配置有什么问题?
我正在使用 Python 2.7 和 Spark 1.6
java - 将文件(配置)从 HDFS 复制到每个 spark 执行器的本地工作目录
我正在寻找如何使用 Java 将包含资源依赖项文件的文件夹从 HDFS 复制到每个 spark 执行器的本地工作目录。
起初我想使用 spark-submit 的 --files FILES 选项,但它似乎不支持任意嵌套文件的文件夹。因此,看来我必须通过将此文件夹放在共享 HDFS 路径上,以便在运行作业之前由每个执行程序正确复制到其工作目录,但尚未找出如何在 Java 代码中正确执行此操作。
或者 zip/gzip/archive 这个文件夹,放到共享的 HDFS 路径下,然后将压缩包解压到每个 Spark 执行器的本地工作目录。
感谢任何帮助或代码示例。
这是配置文件的文件夹,它们是计算的一部分,应与 spark-submit 主 jar 位于同一位置(例如,数据库文件,运行作业时使用的 jar 代码,不幸的是我无法更改此依赖关系,因为我我正在重用现有代码)。
问候,-尤里
scala - 在火花代码管理 conf.setMaster() 使用配置文件自动设置本地或纱线集群
因此,在开发 spark 程序时,我使用本地机器,因此必须将 master 设置为“本地”。但是,当我提交从本地开发的程序构建的 jar 时,我显然不想使用“本地”模式。
如何在测试时使用 typesafeconfig 设置“本地”,在生产时设置“yarn-cluster”?
编辑:
基于@Shaido 的解决方案,对于 IDEA Intellij:
转到:运行->编辑配置->在应用程序配置集下:
VM options = -Dspark.master=local[*]
apache-spark - Spark 和 YARN - 如何与它们一起工作
我有一个概念上的疑问。
这将是关于 YARN 和 SPARK,我有一个 2 YARN (AM) 28GB 和 4 个 CPU 和一个 56GB 的 WORKNODE 和 8 个 CPU。
我总是通过 spark-submit 选项中的 YARN yarn-cluster 提交我的申请。
如果 YARN 服务器的资源较少,我如何使用所有内存和工作节点 cpu?
工作节点设置可以与 YARN 设置重叠吗?
如果我的“spark.executor.memory”参数大于 YARN 内存,会使用还是不使用?
充分利用我的工作节点的潜力?
apache-spark - spark-submit 在未连接到 Internet 时失败
当我尝试通过使用参数 --packages 定义的 spark-submit 提交 spark 作业时,我希望 spark 首先在本地 repo 中搜索工件并在它们存在时使用它们。
我观察到每次 spark 尝试从 Internet 获取工件时,如果没有连接就会失败。
我可以强制 spark 只使用本地缓存吗?
例子 :