问题标签 [livy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1227 浏览

r - sparklyr 与 Kerberos 的联系

我可以通过 Livy 服务连接到非 Kerberized 火花集群,而不会出现远程Rstudio 桌面(Windows)的问题。

但是,如果启用了 Kerberos 安全性,则连接会失败:

返回

使用sparklyr_0.5.6-9002MIT Kerberos for Windows 进行身份验证。

另一方面,从集群内部(即通过curl)连接是成功的。

我究竟做错了什么?这种连接需要哪些额外的设置?

livy_config(..., username, password)配置似乎只形成了一个Authorization: Basic ...标题,但在这里我怀疑应该需要aNegotiate或(?) 。Kerberos

我还缺少其他可能的配置吗?

kinit注意:使用授权用户从 shell中返回相同的错误。

0 投票
3 回答
5897 浏览

rest - 如何通过 livy 杀死火花/纱线工作

我正在尝试使用 rest api 通过 livy 提交 spark 作业。但是,如果我多次运行相同的脚本,它会运行具有不同作业 ID 的作业的多个实例。我正在寻找一种方法来在开始新的工作之前杀死以相同名称运行的火花/纱线工作。Livy 文档说(https://github.com/cloudera/livy#batch)删除批处理作业,但 livy 会话不返回应用程序名称,只返回应用程序 ID。

还有另一种方法吗?

0 投票
4 回答
5299 浏览

c# - 从 C# 提交 Spark 作业并获得结果

根据标题,我想请求对Spark集群(Azure 中的本地/HDInsight)进行计算,并从 C# 应用程序中获取结果。

我承认Livy的存在,我理解它是一个位于Spark之上的 REST API 应用程序来查询它,我还没有找到标准的C# API包。这是适合这项工作的工具吗?它只是缺少一个众所周知的C# API吗?

Spark集群需要访问Azure Cosmos DB ,因此我需要能够提交包括连接器 jar 库(或其在集群驱动程序上的路径)的作业,以便SparkCosmos读取数据。

0 投票
1 回答
1649 浏览

apache-spark - 如何通过其 Java API 在 Livy Job 提交中设置代理用户

我正在使用 Livy 的 Java API 在集群上的 YARN 上提交 spark 作业。目前,作业以“livy”用户的身份提交,但我想以 Livy 的代理用户身份提交作业。

可以通过在 POST 数据中传递一个字段来向 Livy 服务器发送 POST 请求来实现这一点。我在想这是否可以通过 Livy 的 Java API 来完成。

我正在使用标准方式提交作业:

0 投票
1 回答
1732 浏览

java - 如何在 Windows 上构建 Livy 客户端?

我想在 Windows 上编写一个 Java 应用程序,它使用 Livy 的 Java API 与远程托管的 Apache Livy 服务器通信。文档说:

将 Livy 客户端依赖项添加到应用程序的 POM:

注意:在 Livy 的第一个 Apache 版本之前,您必须使用在本地安装 livy 工件mvn install

不幸的是,似乎不支持在 Windows 上构建 Livy 。有没有人在 Windows 上成功构建了 Livy 客户端?

0 投票
1 回答
2093 浏览

apache-spark - 为什么 Apache Livy 会话显示应用程序 id 为 NULL?

我已经实现了一个功能齐全的 Spark 2.1.1 独立集群,我在其中使用 Apache Livycurl 0.4通过命令发布作业批次。在咨询 Spark WEB UI 时,我看到了我的工作及其应用程序 ID(类似于:)app-20170803115145-0100,以及应用程序名称、核心、时间、状态等。但是在咨询 Livy WEB UI 时(http://localhost:8998 by默认),我看到以下结构:

如果我得到所有批次的状态,我会得到以下结果:

这显然是正确的,但我总是在appId字段中看到空值,还有driverLogUrlsparkUiUrl

该字段是否假设显示与我在 Spark WEB UI 中看到的相同的应用程序 ID?如果是这样,我该如何配置它或者它必须是自动的?不知道我是否在 livy.conf 或 livy-env.sh 文件中遗漏了一些配置行,因为我找不到任何示例或有关此的文档。

这是我的 livy.conf 文件:

这是 livy-env.sh 文件:

如果您需要更多信息,请告诉我。


更新 对于那些有同样问题的人。不幸的是,使用独立集群管理器我无法修复,但后来我不得不将其更改为 YARN 以更好地管理池和队列,这神奇地解决了问题,我能够看到所有这些信息。不知道为什么独立管理器不能将 applicationId 推送到 Livy,但是 YARN 可以,所以它只是自行修复,我没有更改 Livy conf 中的任何内容。文件。

0 投票
2 回答
2828 浏览

apache-spark - Zeppelin 0.7.2 版本不支持 spark 2.2.0

如何降级spark版本?其他解决方案可能是什么?我必须使用 spark session 连接我的 hive 表来触发。但是zeppelin不支持spark版本。

0 投票
0 回答
487 浏览

r - 通过远程独立服务器上的 Livy 将 R 脚本提交给 Spark

我设置为独立 aUbuntu serverSpark 2.2.0运行。我的目标是允许多个用户(clients)连接到该服务器并在本地(从他们自己的计算机)进行开发,这要归功于RStudio一些代码,这些代码必须在Spark.

所以,我在我的服务器上安装了 Livy(它已启动并正在运行),它允许我从RStudio

RStudio给我发回一条消息,告诉我我已连接。

由此,我有几个问题:

  1. 我可以在本地的 RStudio 上开发并将所有处理发送到 Spark(例如:管理数据框 + 执行一些机器学习)吗?如果是,如何?我必须直接使用 SparklyR 的函数吗?在将代码发送到远程服务器上的 Spark 集群之前,我是否必须安装本地运行的 Spark 实例才能测试我的代码?

  2. 当我使用带有 Iris 数据框的 copy_to 函数时,大约需要一分钟。我是否可以得出结论认为我的连接速度太慢而无法考虑在本地开发并将所有进程发送到我的服务器?

  3. 不能直接在我的服务器内部使用 RStudio(因为我们只是通过命令行访问它),我们将是几个人同时开发。什么是轻松开发的最佳解决方案?

最后,我面临一个简单的问题:如果最好的解决方案是在本地开发我们的应用程序,然后通过 ssh 将它们发送到我的服务器,并直接在我的服务器上执行它们,我该如何运行它们?我已经尝试归档一个简单R script.JAR文件并运行spark_submit,但我得到一个类未找到错误(未找到主程序)。我能怎么做 ?

0 投票
1 回答
2619 浏览

scala - Livy 错误 RSCClient:无法连接到上下文

我在 Scala ApI 中运行 Livy 客户端应用程序,其中 Livy 为 0.3.0,Spark 版本在 Yarn 模型上为 1.6.0。

这是主要代码。

和 livy 日志中的异常:

但是使用Java API可以正常工作

0 投票
1 回答
868 浏览

curl - Livy:在纱线模式下运行火花作业

无法通过 Livy 在纱线(集群或客户端)模式下运行 Spark 作业,我可以使用 Livy 运行 Spark 作业,但这些作业正在本地模式下运行,并且在资源管理器中不可见。我想以纱线集群模式运行这些作业。

我正在使用 Hortonworks HDP 2.6.1 hadoop 发行版。HDP2.6.1 有两个版本的 spark(2.1.1 和 spark 1.6.3)和两个版本的 livy(1 和 2)。

我们有 Ambari 来查看/更改 conf 文件。

我们对以下文件进行了更改:-

  1. /usr/hdp/2.6.1.0-129/etc/livy/conf.dist/conf/livy.conf
  2. /usr/hdp/current/livy-server/conf/livy-env.sh
  3. /usr/hdp/2.6.1.0-129/spark/conf/spark-defaults.conf

在上述文件中添加了以下属性:-

  1. spark.master 纱线簇
  2. spark.submit.deployMode 集群

========数据=========

========卷曲命令=========

有人可以帮忙,我们需要在哪个配置文件中进行更改才能在纱线模式下运行火花作业?