“livy”的相关标签问题_Stack Overflow中文网

0 投票

3 回答

1741 浏览

scala - Apache Livy cURL 不适用于 spark-submit 命令

我最近开始使用 Spark Scala、HDFS、sbt 和 Livy。目前我试图创建 livy 批次。

这是错误语句，显示在 livy 批处理日志中。

我的 spark-submit 命令对本地 .jar 文件运行良好。

但对于 livy（在 cURL 中）也是如此，它会引发错误。

所以，我将 .jar 文件转移到 hdfs 中。我的 livy 新代码是 -

这是上面提到的抛出错误。

请告诉我，我哪里错了？

提前致谢！

2018-06-21T13:05:56.190

0 投票

3 回答

4399 浏览

scala - Apache Livy doesn't work with local jar file

I am trying to run local jar file with spark-submit which is working perfectly fine. Here is the command-

But when I am trying with curl

It is throwing error

Here is my livy.conf file, as some article suggest to change few things.

Please help me out with this.

Thanks in Advance.

scala apache-spark livy

2018-06-26T08:30:20.137

0 投票

2 回答

450 浏览

azure - 如何让 HDInsight/Spark 集群在空闲时收缩？

我们在 Azure HDInsight 上使用 Spark 2.2 进行临时探索和批处理作业。

这些作业应该在 5x 中型 VM 集群上运行良好。它们是 1. 笔记本（Zeppelin 与 Livy.spark2 魔法） 2. 与 Livy 一起运行的已编译 jar。

我必须记住在不使用时将这个集群缩小到 1 个工作人员，以节省资金。（如果可能的话，0 个工人会很好）。

我希望 Spark 为我管理这个......当作业开始时，首先将集群扩展到最小大小，然后在完成时暂停约 10 分钟。在没有作业的空闲期后，再次缩减。

azure apache-spark hadoop-yarn azure-hdinsight livy

2018-06-28T23:39:37.690

0 投票

1 回答

3563 浏览

apache-spark - 在 Pyspark/Jupyter 中设置 spark.local.dir

我正在使用 Jupyter 笔记本中的 Pyspark，并尝试将大型镶木地板数据集写入 S3。
我收到“设备上没有剩余空间”错误。我四处搜寻，得知这是因为 /tmp 已满。
我现在想编辑spark.local.dir以指向一个有空间的目录。
如何设置此参数？
我发现的大多数解决方案都建议在使用 spark-submit 时进行设置。但是，我没有使用 spark-submit，只是将它作为 Jupyter 的脚本运行。

编辑：我正在使用 Sparkmagic 来处理 EMR 后端。我认为spark.local.dir需要在配置 JSON 中进行设置，但我不确定如何在此处指定它。
我尝试添加它，session_configs但它没有工作。

apache-spark pyspark jupyter livy

2018-06-29T00:27:57.493

0 投票

2 回答

710 浏览

scala - 使用 Livy 读取在 HDFS 中创建的文件

我正在使用 Livy 通过创建运行良好的 jar 文件并在 HDFS 中写入输出来运行 wordcount 示例。现在我想将结果返回到我的 HTML 页面。我正在使用 Spark scala、sbt、HDFS 和 Livy。

GET/batches REST API 仅显示日志和状态。

如何获得输出结果？

或者如何在 Livy 中使用 REST API 读取 HDFS 中的文件？这个你能帮我吗。

提前致谢。

scala apache-spark sbt livy

2018-07-03T04:56:21.337

0 投票

1 回答

895 浏览

apache-spark - zeppelin 动态加载 jars

在 Zeppelin 内部，我希望能够将 jar 从公司存储库动态加载到 Livy。

仅适用于由于安全限制而受到限制的解释器配置。

如何在 zeppelin 中设置允许的存储库，然后为 Livy 动态拉取 jar，类似于：

提供

apache-spark dependencies apache-zeppelin livy

2018-07-06T07:04:20.743

0 投票

1 回答

1416 浏览

pyspark - 无法通过 Apache NiFi 中的 ExecuteSparkInteractive 处理器提交 Pyspark 代码

我是 Python 和 Apache 生态系统的新手。我正在尝试通过 Apache NiFi 中的 ExecuteSparkInteractive 处理器提交 Pyspark 代码。我对这里使用的任何组件都没有详细的了解，我只是在谷歌搜索和试用。

通过这种方式，我已经在 EMR 中成功配置并启动了 Spark、NiFi 和 Livy。而且我可以在交互式会话中通过 Livy 提交 Pyspark 代码。

但是，当我将 ExecuteSparkInteractive 配置为通过 Livy 提交 Pyspark 代码时，什么也没有发生。Livy 会话管理器没有显示任何内容，并且在 ExecuteSparkInteractive 处理器中没有可见的错误。

这是我对 LivySessionController 的配置：

这是我在 ExecuteSparkInteractive 的属性下提交的示例代码。

这是在交互式会话中对我有用的代码：

这些是 nifi-app.log 的日志摘录：

有趣的是，当我在 NiFi 中启用 LivySessionController 时，Livy UI 显示了两个新会话——第一个创建的会话显示为“空闲”状态，而后一个（会话 ID 较大的会话）即使在几次之后仍保持在“开始”状态刷新。让我们分别给他们 Session Id 1 和 2。有趣的是，Session Id 2 将状态从“starting”变为“shutting_down”再变为“dead”。一旦它死了，就会创建一个状态为“starting”的新会话（Session Id 3），该状态后来变为“idle”。以下是这 3 个会话的日志摘录：

pyspark apache-nifi livy

2018-07-17T10:34:46.373

0 投票

1 回答

1011 浏览

apache-spark - Apache Nifi - 通过 Apache Livy 提交 Spark 批处理作业

我想从 Nifi 安排我的 spark 批处理作业。我可以看到有ExecuteSparkInteractive处理器将火花作业提交给 Livy，但它执行属性中提供的代码或来自传入流文件的内容。如果批处理作业失败或成功，我应该如何安排我的来自 Nifi 的 spark 批处理作业并采取不同的操作？

apache-spark apache-nifi livy

2018-07-18T01:52:59.140

0 投票

0 回答

1726 浏览

apache-spark - 如何在 Docker 中设置 Apache Livy 和 Spark？

我正在尝试在 Docker 上设置 Livy 和 Spark。

现在我有一个 Spark 的本地设置，因为spark-shell它在我的 Windows CMD 上运行良好，并且我创建了一个Livy(ie tobilg/livy)的图像，Docker因为 Livy 不能直接在 Windows 上工作。Livy 的那个图像也很好用，但它们似乎没有相互联系，所以，我也必须创建一个 Spark 容器。

请帮帮我。

提前致谢。

apache-spark docker livy

2018-07-22T11:06:24.877

0 投票

1 回答

281 浏览

apache-spark - 从 PySpark 运行大量 Hive 查询

我想执行大量的配置单元查询并将结果存储在数据框中。

我有一个非常大的数据集，结构如下：

我想创建一个派生数据框，它使用每一行作为辅助查询的输入：

这对一百行按预期工作，但会导致 livy 在更高的负载下超时。

我尝试使用 map 或 foreach：

导致PicklingError: Could not serialize object: TypeError: 'JavaPackage' object is not callable. 我从这个答案和这个答案中了解到火花上下文对象不可序列化。

我没有尝试先生成所有查询，然后运行批处理，因为我从这个问题中了解到不支持批处理查询。

我该如何进行？

apache-spark hive pyspark livy

2018-07-23T11:50:54.057

问题标签 [livy]

Reference