0 投票

1 回答

86 浏览

java - 如果未使用所有依赖项 jar 编译，则上传到 Apache Livy 的应用程序将失败

我正在向 Livy 提交一个带有 curl 命令的批处理作业，即 Pi 作业，但它失败了，因为java.lang.ClassNotFoundException: org.apache.livy.Job. 如果我用 jar 文件中的所有依赖项编译我的 jar，那么它就可以工作。

为什么我需要这样做？我在 Livy 上执行它，至少我希望 Livy 有它自己的依赖项可用。

2018-08-30T10:30:13.120

0 投票

1 回答

1720 浏览

pyspark - Spark 应用程序在 1 小时后在 EMR 中突然被杀死，并且 livy 会话过期。原因和解决方案是什么？

我在 AWS EMR 集群上使用 JupyterHub。我正在使用 EMR 版本 5.16

我使用 pyspark3 笔记本提交了一个 spark 应用程序。我的应用程序正在尝试将 1TB 数据写入 s3。我正在使用 EMR 的自动缩放功能来缩放我们的任务节点。

硬件配置： 1.Master 节点：32 GB RAM，16 核 2.Core 节点：32 GB RAM，16 核 3.Task 节点：16 GB，每个 8 核。（任务节点放大 15 个）

我观察到 Spark 应用程序在运行 50 到 60 分钟后被终止。我尝试调试： 1. 我的集群仍有扩展空间。所以这不是资源短缺的问题。2. Livy 会话也被杀死。3. 在作业日志中，我看到错误消息 RECVD TERM SIGNAL "Shutdown hook received"

请注意： 1. 我保留了 :spark.dynamicAllocation.enabled=true" 2. 我在 Jupiter hub 中使用带有用户模拟的 yarn fair 调度程序

你能帮我理解问题和解决方案吗？

pyspark amazon-emr livy

2018-09-07T17:28:28.633

0 投票

1 回答

1040 浏览

pyspark - 尝试将 pyspark 与 Livy 一起使用时，出现 PYSPARK_GATEWAY_SECRET 错误

在命令行上使用 pyspark 启动时pyspark，一切都按预期工作。但是，当使用 Livy 时，它不会。

我使用 Postman 建立了连接。首先，我将其发布到sessions端点：

会话启动，我可以看到 Spark 在 YARN 上启动。但是，我在容器日志中收到此错误：

的输出sessions/XYZ/log是：

这里有什么问题？将 CDH 5.15.0 与 Parcels 和 Spark2 一起使用。使用 Scala 没有问题。

跟进

我将部署模式从设置cluster为client。KeyError 消失了，但是当我尝试运行一个简单的程序时，sc.version我Interpreter died没有任何回溯或错误。

pyspark livy

2018-09-12T14:00:22.450

0 投票

0 回答

368 浏览

r - 通过 RStudio 中的 sparklyr 连接 Livy，比通过 sparkmagic 连接慢

我sparklyr(0.8.4)在 RStudio 中使用通过 livy 连接到我的远程 spark 环境，并注意到 sparklyr 建立会话大约需要 3~5 分钟。

sc <- sparklyr::spark_connect(master="https://myremotelivy", method="livy")

但是，当我通过（在 jupyter 笔记本中）通过同一个 livy 端点连接到同一个集群时，我看到返回会话上下文的sparkmagic时间不到一分钟。sparkR

我知道这与它与远程系统的工作方式有sparklyr很大不同sparkR（即 sparklyr 利用 sparkQL），也许这不是一个公平的比较。

任何人都可以分享任何关于为什么通过 RStudio 建立此会话需要更多时间的见解吗？是否有配置参数（livy、spark 或 RStudio）可以帮助通过 sparklyr 进行交互以降低速度？即使执行一个简单的x <- tbl(sc, "mytable") 也需要大约 15 秒..

非常感谢。

r rstudio sparklyr livy

2018-09-13T14:48:32.910

0 投票

2 回答

1913 浏览

livy - 使用 Apache Livy 的 Java 应用程序

我决定使用 Apache Livy 为 Apache Spark 构建一个 Web 服务（应用程序）。
根据 Livy 配置默认值，Livy 服务器已启动并在 localhost 端口 8998 上运行。
我的测试程序是 Apache Livy 文档中的示例应用程序： https ://livy.incubator.apache.org/docs/latest/programmatic-api.html

通过LivyClientBuilder类创建 LivyClient时，

我得到“任何注册的客户端工厂都不支持 URI”异常：

我发现客户端实例在LivyClientBuilder类中保持为空。

factory 是LivyClientFactory接口的一个实例。
实现该接口的唯一类是RSCClientFactory。
在RSCClientFactory我们有这段代码：

我试过“rsc”而不是“http”，这是错误：

Apache Livy 在 http://localhost:8998上运行，那么我认为我们需要将我们的 jar 文件提交到这个地址，但我不明白那里的“rsc”。

如果有人指导我解决这些问题，我将不胜感激。

livy

2018-09-15T07:46:24.490

0 投票

0 回答

343 浏览

r - Connecting to a Remote Cloudera Spark Cluster using Sparklyr with the method Livy

Not able to connect to a Remote spark cluster using Sparklyr Livy Method.

I am getting an error:

Error in value[3L] : Failed to initialize livy connection: Unable to retrieve a spark_connection from object of class function

Livy server is started on the cluster. Other Livy commands are working fine. Remote cluster is a cloudera managed cluster.

The problem resolved when the sparklyr was reinstalled from CRAN, earlier the sparlyr was installed from using devtools::install_github("rstudio/sparklyr")

r sparklyr livy

2018-09-18T13:35:05.740

0 投票

1 回答

948 浏览

hadoop-yarn - 无法从 Yarn RM UI 中终止应用程序

我在安装了 apache livy 的谷歌云平台上安装了 dataproc。我正在使用 livy rest api 提交作业。当我尝试从 Yarn RM 中杀死 livy 作业时，我在浏览器控制台选项卡中遇到错误。

当我打开纱线 RM。我不确定如何为 Yarn RM Web 界面设置用户身份验证。另外，当我打开 yarn ui 时，它不会询问我任何用户名和密码。

但是我可以使用以下命令杀死应用程序

hadoop-yarn google-cloud-dataproc livy

2018-09-22T13:09:09.157

0 投票

2 回答

381 浏览

security - Zeppelin, Livy, 我可以得到 proxyUser

我正在尝试在我的 scala (%livy) 脚本中获取用于登录 Zeppelin 的用户 ID。我试过在线搜索并注意到有一个名为“proxyUser”的属性。但是，我无法弄清楚如何在我的 Scala 脚本中获取此属性。

我尝试在我的 SparkContext (spark) 和 ScalaContext (sc) 中转储所有属性，但没有发现任何看起来很有希望的东西。

我不知道在哪里看，任何指导将不胜感激......

最终目标是从我将构建的自定义库中访问登录用户。所以理想情况下，我想获得某种包含登录 ID 的只读属性，并将该结构传递给我的自定义库，该库又将提取用户 ID。换句话说，我不希望脚本作者将用户 ID 作为字符串变量传递（因为我不希望他们试图将自己伪装成另一个用户）。

security apache-zeppelin userid livy

2018-09-24T07:10:30.953

0 投票

1 回答

717 浏览

apache-spark - Apache Spark 和 Livy 集群

设想：

我有火花簇，
我也想使用 Livy。
我是新来的李维

问题：

我使用 docker swarm 构建了我的 spark 集群，
我还将为 Livy 创建一个服务。
Livy 可以与外部 spark master 通信并向外部 spark master 发送作业吗？
如果可以，需要做哪些配置？
或者 Livy 应该安装在 spark 主节点上？

apache-spark docker-swarm livy

2018-09-26T05:05:13.333

0 投票

0 回答

368 浏览

apache-spark - Zeppelin - Spark Interpreter 无法使用 CTAS（Create Table as Select ...）语句创建配置单元表

我正在使用 Zeppelin 并尝试使用 CTAS 语句从另一个配置单元表创建一个配置单元表

但是我的查询总是以错误告终，因此没有创建表。发现了几篇说要修改 zeppelin 配置的帖子，但我无法更改任何配置，因为我无权这样做。

我执行的查询和我得到的错误如下：

org.apache.hadoop.hive.ql.metadata.HiveException：无法更改表。方法名称无效：在 org.apache.hadoop.hive.ql.metadata.Hive.alterTable(Hive.java :484) 在 org.apache.hadoop.hive.ql.metadata.Hive.loadTable(Hive.java:1668) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java :62) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在 java.lang.reflect.Method.invoke(Method.java:498) 在 org.apache.spark.sql.hive.client.Shim_v0_14。 loadTable(HiveShim.scala:716) at org.apache.spark.sql.hive.client.HiveClientImpl$$anonfun$loadTable$1.apply$mcV$sp(HiveClientImpl.scala:672) at org.
在 org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.recv_alter_table_with_cascade(ThriftHiveMetastore.java:1374) 在 org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.alter_table_with_cascade(ThriftHiveMetastore.java:1358)在 org.apache.hadoop.hive.metastore.HiveMetaStoreClient.alter_table(HiveMetaStoreClient.java:340) 在 org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient.alter_table(SessionHiveMetaStoreClient.java:251) 在 sun.reflect.NativeMethodAccessorImpl .invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java :498) 在 org.apache.hadoop.hive.metastore.RetryingMetaStoreClient。在 org.apache.hadoop.hive.ql.metadata.Hive.alterTable(Hive.java:496) 的 com.sun.proxy.$Proxy25.alter_table(Unknown Source) 调用(RetryingMetaStoreClient.java:156)
... 93 更多

apache-spark hive apache-zeppelin livy

2018-09-26T13:29:27.340

问题标签 [livy]

跟进

Reference