问题标签 [livy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Apache Livy cURL 不适用于 spark-submit 命令
我最近开始使用 Spark Scala、HDFS、sbt 和 Livy。目前我试图创建 livy 批次。
这是错误语句,显示在 livy 批处理日志中。
我的 spark-submit 命令对本地 .jar 文件运行良好。
但对于 livy(在 cURL 中)也是如此,它会引发错误。
所以,我将 .jar 文件转移到 hdfs 中。我的 livy 新代码是 -
这是上面提到的抛出错误。
请告诉我,我哪里错了?
提前致谢!
scala - Apache Livy doesn't work with local jar file
I am trying to run local jar file with spark-submit which is working perfectly fine. Here is the command-
But when I am trying with curl
It is throwing error
Here is my livy.conf file, as some article suggest to change few things.
Please help me out with this.
Thanks in Advance.
azure - 如何让 HDInsight/Spark 集群在空闲时收缩?
我们在 Azure HDInsight 上使用 Spark 2.2 进行临时探索和批处理作业。
这些作业应该在 5x 中型 VM 集群上运行良好。它们是 1. 笔记本(Zeppelin 与 Livy.spark2 魔法) 2. 与 Livy 一起运行的已编译 jar。
我必须记住在不使用时将这个集群缩小到 1 个工作人员,以节省资金。(如果可能的话,0 个工人会很好)。
我希望 Spark 为我管理这个......当作业开始时,首先将集群扩展到最小大小,然后在完成时暂停约 10 分钟。在没有作业的空闲期后,再次缩减。
apache-spark - 在 Pyspark/Jupyter 中设置 spark.local.dir
我正在使用 Jupyter 笔记本中的 Pyspark,并尝试将大型镶木地板数据集写入 S3。
我收到“设备上没有剩余空间”错误。我四处搜寻,得知这是因为 /tmp 已满。
我现在想编辑spark.local.dir
以指向一个有空间的目录。
如何设置此参数?
我发现的大多数解决方案都建议在使用 spark-submit 时进行设置。但是,我没有使用 spark-submit,只是将它作为 Jupyter 的脚本运行。
编辑:我正在使用 Sparkmagic 来处理 EMR 后端。我认为spark.local.dir
需要在配置 JSON 中进行设置,但我不确定如何在此处指定它。
我尝试添加它,session_configs
但它没有工作。
scala - 使用 Livy 读取在 HDFS 中创建的文件
我正在使用 Livy 通过创建运行良好的 jar 文件并在 HDFS 中写入输出来运行 wordcount 示例。现在我想将结果返回到我的 HTML 页面。我正在使用 Spark scala、sbt、HDFS 和 Livy。
GET/batches REST API 仅显示日志和状态。
如何获得输出结果?
或者如何在 Livy 中使用 REST API 读取 HDFS 中的文件?这个你能帮我吗。
提前致谢。
apache-spark - zeppelin 动态加载 jars
在 Zeppelin 内部,我希望能够将 jar 从公司存储库动态加载到 Livy。
仅适用于由于安全限制而受到限制的解释器配置。
如何在 zeppelin 中设置允许的存储库,然后为 Livy 动态拉取 jar,类似于:
提供
pyspark - 无法通过 Apache NiFi 中的 ExecuteSparkInteractive 处理器提交 Pyspark 代码
我是 Python 和 Apache 生态系统的新手。我正在尝试通过 Apache NiFi 中的 ExecuteSparkInteractive 处理器提交 Pyspark 代码。我对这里使用的任何组件都没有详细的了解,我只是在谷歌搜索和试用。
通过这种方式,我已经在 EMR 中成功配置并启动了 Spark、NiFi 和 Livy。而且我可以在交互式会话中通过 Livy 提交 Pyspark 代码。
但是,当我将 ExecuteSparkInteractive 配置为通过 Livy 提交 Pyspark 代码时,什么也没有发生。Livy 会话管理器没有显示任何内容,并且在 ExecuteSparkInteractive 处理器中没有可见的错误。
这是我对 LivySessionController 的配置:
这是我在 ExecuteSparkInteractive 的属性下提交的示例代码。
这是在交互式会话中对我有用的代码:
这些是 nifi-app.log 的日志摘录:
有趣的是,当我在 NiFi 中启用 LivySessionController 时,Livy UI 显示了两个新会话——第一个创建的会话显示为“空闲”状态,而后一个(会话 ID 较大的会话)即使在几次之后仍保持在“开始”状态刷新。让我们分别给他们 Session Id 1 和 2。有趣的是,Session Id 2 将状态从“starting”变为“shutting_down”再变为“dead”。一旦它死了,就会创建一个状态为“starting”的新会话(Session Id 3),该状态后来变为“idle”。以下是这 3 个会话的日志摘录:
apache-spark - Apache Nifi - 通过 Apache Livy 提交 Spark 批处理作业
我想从 Nifi 安排我的 spark 批处理作业。我可以看到有ExecuteSparkInteractive处理器将火花作业提交给 Livy,但它执行属性中提供的代码或来自传入流文件的内容。如果批处理作业失败或成功,我应该如何安排我的来自 Nifi 的 spark 批处理作业并采取不同的操作?
apache-spark - 如何在 Docker 中设置 Apache Livy 和 Spark?
我正在尝试在 Docker 上设置 Livy 和 Spark。
现在我有一个 Spark 的本地设置,因为spark-shell
它在我的 Windows CMD 上运行良好,并且我创建了一个Livy
(ie tobilg/livy
)的图像,Docker
因为 Livy 不能直接在 Windows 上工作。Livy 的那个图像也很好用,但它们似乎没有相互联系,所以,我也必须创建一个 Spark 容器。
请帮帮我。
提前致谢。