问题标签 [spark-submit]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Spark-submit python logging in executor
我正在使用 Python 来实现 spark 作业。我们希望将应用程序中的 python 日志记录输出到 Spark 历史服务器中。所以我们使用了这里列出的方法:
然而问题是,由于 yarn_logger 初始化只发生在驱动程序中,执行程序仍然以 WARNING 的 python 日志记录级别运行,这意味着执行程序没有日志显示。
在我的驱动程序中,我执行以下操作:
在其他 python 文件中,我只是初始化 python 日志记录模块:
但这只会导致显示在驱动程序上下文中的日志。
我如何构建它,以便每个进程只初始化一次 yarn_logger,无论应用程序是在本地模式还是集群模式下运行?我当然可以在我的应用程序的每个 python 模块中初始化 yarn_logger,但是如果我在本地模式下运行它可能会导致它在应用程序中多次初始化。
amazon-s3 - 亚马逊 AWS 无法访问我的 s3n 网址
我正在尝试使用我的 python 文件进行 spark-submit,在这个 python 文件中,我想访问存储在我的存储桶中的 data.txt。我正在使用以下命令访问我的文件,但我不断收到错误消息。
apache-spark - 如何设置 Spark 应用程序退出状态?
我正在编写一个 spark 应用程序并使用 spark-submit shell 脚本运行它(使用 yarn-cluster/yarn-client)
正如我现在看到的,spark-submit 的退出代码是根据相关的纱线应用程序决定的——如果 SUCCEEDED 状态为 0,否则为 1。
我希望可以选择返回另一个退出代码 - 对于我的应用程序成功但出现一些错误的状态。
可能吗?从应用程序返回不同的退出代码?
我尝试使用 System.exit() 但没有成功...
谢谢。
scala - 长时间运行的火花提交作业
我正在尝试使用 spark submit 运行脚本,因为
此脚本在 60K 记录上实现 DIMSUM 算法。
不幸的是,即使在 3 小时后这种情况仍在继续。我厌倦了 1K 数据并在 2 分钟内成功运行。
任何人都可以建议对 spark-submit 参数进行任何更改以使其更快吗?
apache-spark - Yarn-Cluster 模式 - ApplicationMaster:SparkContext 在等待 100000 毫秒后未初始化
在我的 pyspark 程序中,我有
并将我的 pyspark 程序运行为
然后这项工作失败了
在我运行yarn logs -applicationId application_1482268372614_0318
它后显示错误
yarn-client
[编辑] 当我在模式下提交时没有遇到这个错误
apache-spark - 尝试在 emr 上使用 oozie 执行 spark 提交时出现以下错误
我在集群模式下运行。apacheds-kerberos-codec-2.0.0-M15.jar 存在于 oozie/share/lib/lib*/spark 和 oozie/share/lib/lib*/oozie 的多个位置。这是环境问题吗?
hadoop - 使用 --proxy-user、--keytab 和 --principal 参数在 hadoop kerberos 中提交 spark-submit
只是想澄清一下 spark-submit --keytab --principal && --proxy-user 参数是否可以共存?
我们要求以真正的业务用户身份提交作业,但该用户在 hadoop kdc 中没有委托人。
每当将代理用户和 kerberos 主体一起使用时,我都会遇到异常。
- 如果代理用户和主体参数不能共存,你们有这方面的文档吗?
- kerberos hadoop 环境中代理用户参数的真正用例是什么?
java - “文件名、目录名或卷标语法不正确。” 使用 spark-submit 时
我正在使用 spark-submit 来执行一个 jar 文件。Spark 位于我的“C”驱动器中,而我的 Eclipse 工作区位于“D”驱动器中。很难我给出 jar 文件的绝对路径,但我收到错误消息“文件名、目录名或卷标语法不正确”。
下面是我用来运行 spark-submit 的命令:
这到底有什么问题,是否有任何解决方法?
scala - 哪个 jar 有 org.apache.spark.sql.types?
我在 Spark 1.x 上,并试图读取 csv 文件。如果我需要指定一些数据类型,根据文档,我需要导入包org.apache.spark.sql.types中定义的类型。
当我在 spark-shell 中以交互方式使用它时,这很好用,但是因为我想通过 spark-submit 运行它,所以我编写了一些 Scala 代码来执行此操作。但是,当我尝试编译我的 Scala 代码时,它给了我一个错误,说它找不到 org.apache.spark.sql.types。我查找了 jar 的内容spark-sql
,但找不到其中定义的这些类型。
那么,哪个 jar 有 org.apache.spark.sql.types?