问题标签 [livy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如果未使用所有依赖项 jar 编译,则上传到 Apache Livy 的应用程序将失败
我正在向 Livy 提交一个带有 curl 命令的批处理作业,即 Pi 作业,但它失败了,因为java.lang.ClassNotFoundException: org.apache.livy.Job
. 如果我用 jar 文件中的所有依赖项编译我的 jar,那么它就可以工作。
为什么我需要这样做?我在 Livy 上执行它,至少我希望 Livy 有它自己的依赖项可用。
pyspark - Spark 应用程序在 1 小时后在 EMR 中突然被杀死,并且 livy 会话过期。原因和解决方案是什么?
我在 AWS EMR 集群上使用 JupyterHub。我正在使用 EMR 版本 5.16
我使用 pyspark3 笔记本提交了一个 spark 应用程序。我的应用程序正在尝试将 1TB 数据写入 s3。我正在使用 EMR 的自动缩放功能来缩放我们的任务节点。
硬件配置: 1.Master 节点:32 GB RAM,16 核 2.Core 节点:32 GB RAM,16 核 3.Task 节点:16 GB,每个 8 核。(任务节点放大 15 个)
我观察到 Spark 应用程序在运行 50 到 60 分钟后被终止。我尝试调试: 1. 我的集群仍有扩展空间。所以这不是资源短缺的问题。2. Livy 会话也被杀死。3. 在作业日志中,我看到错误消息 RECVD TERM SIGNAL "Shutdown hook received"
请注意: 1. 我保留了 :spark.dynamicAllocation.enabled=true" 2. 我在 Jupiter hub 中使用带有用户模拟的 yarn fair 调度程序
你能帮我理解问题和解决方案吗?
pyspark - 尝试将 pyspark 与 Livy 一起使用时,出现 PYSPARK_GATEWAY_SECRET 错误
在命令行上使用 pyspark 启动时pyspark
,一切都按预期工作。但是,当使用 Livy 时,它不会。
我使用 Postman 建立了连接。首先,我将其发布到sessions
端点:
会话启动,我可以看到 Spark 在 YARN 上启动。但是,我在容器日志中收到此错误:
的输出sessions/XYZ/log
是:
这里有什么问题?将 CDH 5.15.0 与 Parcels 和 Spark2 一起使用。使用 Scala 没有问题。
跟进
我将部署模式从 设置cluster
为client
。KeyError 消失了,但是当我尝试运行一个简单的程序时,sc.version
我Interpreter died
没有任何回溯或错误。
r - 通过 RStudio 中的 sparklyr 连接 Livy,比通过 sparkmagic 连接慢
我sparklyr(0.8.4)
在 RStudio 中使用通过 livy 连接到我的远程 spark 环境,并注意到 sparklyr 建立会话大约需要 3~5 分钟。
sc <- sparklyr::spark_connect(master="https://myremotelivy", method="livy")
但是,当我通过(在 jupyter 笔记本中)通过同一个 livy 端点连接到同一个集群时,我看到返回会话上下文的sparkmagic
时间不到一分钟。sparkR
我知道这与它与远程系统的工作方式有sparklyr
很大不同sparkR
(即 sparklyr 利用 sparkQL),也许这不是一个公平的比较。
任何人都可以分享任何关于为什么通过 RStudio 建立此会话需要更多时间的见解吗?是否有配置参数(livy、spark 或 RStudio)可以帮助通过 sparklyr 进行交互以降低速度?即使执行一个简单的x <- tbl(sc, "mytable")
也需要大约 15 秒..
非常感谢。
livy - 使用 Apache Livy 的 Java 应用程序
我决定使用 Apache Livy 为 Apache Spark 构建一个 Web 服务(应用程序)。
根据 Livy 配置默认值,Livy 服务器已启动并在 localhost 端口 8998 上运行。
我的测试程序是 Apache Livy 文档中的示例应用程序: https ://livy.incubator.apache.org/docs/latest/programmatic-api.html
通过LivyClientBuilder类创建 LivyClient时,
我得到“任何注册的客户端工厂都不支持 URI”异常:
我发现客户端实例在LivyClientBuilder类中保持为空。
factory 是LivyClientFactory接口的一个实例。
实现该接口的唯一类是RSCClientFactory。
在RSCClientFactory我们有这段代码:
我试过“rsc”而不是“http”,这是错误:
Apache Livy 在 http://localhost:8998上运行,那么我认为我们需要将我们的 jar 文件提交到这个地址,但我不明白那里的“rsc”。
如果有人指导我解决这些问题,我将不胜感激。
r - Connecting to a Remote Cloudera Spark Cluster using Sparklyr with the method Livy
Not able to connect to a Remote spark cluster using Sparklyr Livy Method.
I am getting an error:
Error in value[3L] : Failed to initialize livy connection: Unable to retrieve a spark_connection from object of class function
Livy server is started on the cluster. Other Livy commands are working fine. Remote cluster is a cloudera managed cluster.
The problem resolved when the sparklyr was reinstalled from CRAN, earlier the sparlyr was installed from using devtools::install_github("rstudio/sparklyr")
hadoop-yarn - 无法从 Yarn RM UI 中终止应用程序
我在安装了 apache livy 的谷歌云平台上安装了 dataproc。我正在使用 livy rest api 提交作业。当我尝试从 Yarn RM 中杀死 livy 作业时,我在浏览器控制台选项卡中遇到错误。
当我打开纱线 RM。我不确定如何为 Yarn RM Web 界面设置用户身份验证。另外,当我打开 yarn ui 时,它不会询问我任何用户名和密码。
但是我可以使用以下命令杀死应用程序
security - Zeppelin, Livy, 我可以得到 proxyUser
我正在尝试在我的 scala (%livy) 脚本中获取用于登录 Zeppelin 的用户 ID。我试过在线搜索并注意到有一个名为“proxyUser”的属性。但是,我无法弄清楚如何在我的 Scala 脚本中获取此属性。
我尝试在我的 SparkContext (spark) 和 ScalaContext (sc) 中转储所有属性,但没有发现任何看起来很有希望的东西。
我不知道在哪里看,任何指导将不胜感激......
最终目标是从我将构建的自定义库中访问登录用户。所以理想情况下,我想获得某种包含登录 ID 的只读属性,并将该结构传递给我的自定义库,该库又将提取用户 ID。换句话说,我不希望脚本作者将用户 ID 作为字符串变量传递(因为我不希望他们试图将自己伪装成另一个用户)。
apache-spark - Apache Spark 和 Livy 集群
设想 :
- 我有火花簇,
我也想使用 Livy。 - 我是新来的李维
问题 :
我使用 docker swarm 构建了我的 spark 集群,
我还将为 Livy 创建一个服务。Livy 可以与外部 spark master 通信并向外部 spark master 发送作业吗?
如果可以,需要做哪些配置?
或者 Livy 应该安装在 spark 主节点上?
apache-spark - Zeppelin - Spark Interpreter 无法使用 CTAS(Create Table as Select ...)语句创建配置单元表
我正在使用 Zeppelin 并尝试使用 CTAS 语句从另一个配置单元表创建一个配置单元表
但是我的查询总是以错误告终,因此没有创建表。发现了几篇说要修改 zeppelin 配置的帖子,但我无法更改任何配置,因为我无权这样做。
我执行的查询和我得到的错误如下:
org.apache.hadoop.hive.ql.metadata.HiveException:无法更改表。方法名称无效:在 org.apache.hadoop.hive.ql.metadata.Hive.alterTable(Hive.java :484) 在 org.apache.hadoop.hive.ql.metadata.Hive.loadTable(Hive.java:1668) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java :62) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在 java.lang.reflect.Method.invoke(Method.java:498) 在 org.apache.spark.sql.hive.client.Shim_v0_14。 loadTable(HiveShim.scala:716) at org.apache.spark.sql.hive.client.HiveClientImpl$$anonfun$loadTable$1.apply$mcV$sp(HiveClientImpl.scala:672) at org.
在 org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.recv_alter_table_with_cascade(ThriftHiveMetastore.java:1374) 在 org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.alter_table_with_cascade(ThriftHiveMetastore.java:1358)在 org.apache.hadoop.hive.metastore.HiveMetaStoreClient.alter_table(HiveMetaStoreClient.java:340) 在 org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient.alter_table(SessionHiveMetaStoreClient.java:251) 在 sun.reflect.NativeMethodAccessorImpl .invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java :498) 在 org.apache.hadoop.hive.metastore.RetryingMetaStoreClient。在 org.apache.hadoop.hive.ql.metadata.Hive.alterTable(Hive.java:496) 的 com.sun.proxy.$Proxy25.alter_table(Unknown Source) 调用(RetryingMetaStoreClient.java:156)
... 93 更多