问题标签 [livy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1741 浏览

scala - Apache Livy cURL 不适用于 spark-submit 命令

我最近开始使用 Spark Scala、HDFS、sbt 和 Livy。目前我试图创建 livy 批次。

这是错误语句,显示在 livy 批处理日志中。

我的 spark-submit 命令对本地 .jar 文件运行良好。

但对于 livy(在 cURL 中)也是如此,它会引发错误。

所以,我将 .jar 文件转移到 hdfs 中。我的 livy 新代码是 -

这是上面提到的抛出错误。

请告诉我,我哪里错了?

提前致谢!

0 投票
3 回答
4399 浏览

scala - Apache Livy doesn't work with local jar file

I am trying to run local jar file with spark-submit which is working perfectly fine. Here is the command-

But when I am trying with curl

It is throwing error

Here is my livy.conf file, as some article suggest to change few things.

Please help me out with this.

Thanks in Advance.

0 投票
2 回答
450 浏览

azure - 如何让 HDInsight/Spark 集群在空闲时收缩?

我们在 Azure HDInsight 上使用 Spark 2.2 进行临时探索和批处理作业。

这些作业应该在 5x 中型 VM 集群上运行良好。它们是 1. 笔记本(Zeppelin 与 Livy.spark2 魔法) 2. 与 Livy 一起运行的已编译 jar。

我必须记住在不使用时将这个集群缩小到 1 个工作人员,以节省资金。(如果可能的话,0 个工人会很好)。

我希望 Spark 为我管理这个......当作业开始时,首先将集群扩展到最小大小,然后在完成时暂停约 10 分钟。在没有作业的空闲期后,再次缩减。

0 投票
1 回答
3563 浏览

apache-spark - 在 Pyspark/Jupyter 中设置 spark.local.dir

我正在使用 Jupyter 笔记本中的 Pyspark,并尝试将大型镶木地板数据集写入 S3。
我收到“设备上没有剩余空间”错误。我四处搜寻,得知这是因为 /tmp 已满。
我现在想编辑spark.local.dir以指向一个有空间的目录。
如何设置此参数?
我发现的大多数解决方案都建议在使用 spark-submit 时进行设置。但是,我没有使用 spark-submit,只是将它作为 Jupyter 的脚本运行。

编辑:我正在使用 Sparkmagic 来处理 EMR 后端。我认为spark.local.dir需要在配置 JSON 中进行设置,但我不确定如何在此处指定它。
我尝试添加它,session_configs但它没有工作。

0 投票
2 回答
710 浏览

scala - 使用 Livy 读取在 HDFS 中创建的文件

我正在使用 Livy 通过创建运行良好的 jar 文件并在 HDFS 中写入输出来运行 wordcount 示例。现在我想将结果返回到我的 HTML 页面。我正在使用 Spark scala、sbt、HDFS 和 Livy。

GET/batches REST API 仅显示日志和状态。

如何获得输出结果?

或者如何在 Livy 中使用 REST API 读取 HDFS 中的文件?这个你能帮我吗。

提前致谢。

0 投票
1 回答
895 浏览

apache-spark - zeppelin 动态加载 jars

在 Zeppelin 内部,我希望能够将 jar 从公司存储库动态加载到 Livy。

仅适用于由于安全限制而受到限制的解释器配置。

如何在 zeppelin 中设置允许的存储库,然后为 Livy 动态拉取 jar,类似于:

提供

0 投票
1 回答
1416 浏览

pyspark - 无法通过 Apache NiFi 中的 ExecuteSparkInteractive 处理器提交 Pyspark 代码

我是 Python 和 Apache 生态系统的新手。我正在尝试通过 Apache NiFi 中的 ExecuteSparkInteractive 处理器提交 Pyspark 代码。我对这里使用的任何组件都没有详细的了解,我只是在谷歌搜索和试用。

通过这种方式,我已经在 EMR 中成功配置并启动了 Spark、NiFi 和 Livy。而且我可以在交互式会话中通过 Livy 提交 Pyspark 代码。

但是,当我将 ExecuteSparkInteractive 配置为通过 Livy 提交 Pyspark 代码时,什么也没有发生。Livy 会话管理器没有显示任何内容,并且在 ExecuteSparkInteractive 处理器中没有可见的错误。

这是我对 LivySessionController 的配置: LivySessionController

这是我在 ExecuteSparkInteractive 的属性下提交的示例代码。

这是在交互式会话中对我有用的代码:

这些是 nifi-app.log 的日志摘录:

有趣的是,当我在 NiFi 中启用 LivySessionController 时,Livy UI 显示了两个新会话——第一个创建的会话显示为“空闲”状态,而后一个(会话 ID 较大的会话)即使在几次之后仍保持在“开始”状态刷新。让我们分别给他们 Session Id 1 和 2。有趣的是,Session Id 2 将状态从“starting”变为“shutting_down”再变为“dead”。一旦它死了,就会创建一个状态为“starting”的新会话(Session Id 3),该状态后来变为“idle”。以下是这 3 个会话的日志摘录:

0 投票
1 回答
1011 浏览

apache-spark - Apache Nifi - 通过 Apache Livy 提交 Spark 批处理作业

我想从 Nifi 安排我的 spark 批处理作业。我可以看到有ExecuteSparkInteractive处理器将火花作业提交给 Livy,但它执行属性中提供的代码或来自传入流文件的内容。如果批处理作业失败或成功,我应该如何安排我的来自 Nifi 的 spark 批处理作业并采取不同的操作?

0 投票
0 回答
1726 浏览

apache-spark - 如何在 Docker 中设置 Apache Livy 和 Spark?

我正在尝试在 Docker 上设置 Livy 和 Spark。

现在我有一个 Spark 的本地设置,因为spark-shell它在我的 Windows CMD 上运行良好,并且我创建了一个Livy(ie tobilg/livy)的图像,Docker因为 Livy 不能直接在 Windows 上工作。Livy 的那个图像也很好用,但它们似乎没有相互联系,所以,我也必须创建一个 Spark 容器。

请帮帮我。

提前致谢。

0 投票
1 回答
281 浏览

apache-spark - 从 PySpark 运行大量 Hive 查询

我想执行大量的配置单元查询并将结果存储在数据框中。

我有一个非常大的数据集,结构如下:

我想创建一个派生数据框,它使用每一行作为辅助查询的输入:

这对一百行按预期工作,但会导致 livy 在更高的负载下超时。

我尝试使用 map 或 foreach:

导致PicklingError: Could not serialize object: TypeError: 'JavaPackage' object is not callable. 我从这个答案这个答案中了解到火花上下文对象不可序列化。

我没有尝试先生成所有查询,然后运行批处理,因为我从这个问题中了解到不支持批处理查询。

我该如何进行?