问题标签 [livy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 从 python 将值传递给 livy
我想将值传递给来自 python 的生动代码。但是我传递的值在每次调用后都会发生变化,但传递给 livy 的值保持不变。
但是第一次迭代中的值与预期的一样。但不是在随后的迭代中。当 map['x'] 在 livy 的代码中传递时。在 while 循环中,map['x'] 的值被发送到上面的 livy 代码。
apache-spark - Apache Livy 中的容错
任何对在 Apache Livy 中实现容错有一些见解的人。比如说 Livy 服务器出现故障,我们如何实现 HA。
apache-spark - 无法从 Hue 服务器创建 Spark 会话
我正在尝试从已配置 livy 服务器的 hue 服务器创建一个 spark 会话,以与启用 kerberos 的 spark 进行通信。
尝试使用查询编辑器启动 spark scala 会话时出现以下错误。但我可以从hue服务器提交spark jar作业,它工作正常。
堆栈跟踪:
使用 kerberos 凭据配置 livy,并且在使用 curl 命令与 spark 通信时也可以正常工作。
色相配置:
配置:
还在 hadoop core-site.xml 中添加了 hue 和 livy 的代理用户
apache-spark - Livy 和 Elasticsearch-Spark:检测到多个 ES-Hadoop 版本
我正在尝试使用 elastisearch-spark jar 从弹性搜索中读取内容。当我将 jar 上传到 livy 客户端时(如此处的示例),我收到此错误,我不确定如何解析它。
我不确定临时目录是什么,或者为什么当我只导入一个 jar 时它会识别 2 个 jar(如果我从我的 pom 中删除依赖项,它会抱怨 Javasespark 不存在)。我做错了什么,我需要做什么来解决这个问题?
apache-spark - 如何通过 Apache Livy 设置 --master、--deploy-mode、--driver-class-path 和 --driver-java-options?
我想在通过 Apache Livy 触发作业时为 Spark 作业设置master、 spark deploy-mode、driver-class-path和driver-java-options,而无需在这些设置更改时重新启动 Livy 服务器。由于在 Livy 中没有直接的选择,如何做到这一点?
amazon-web-services - 如何在同一个 AWS EMR 集群中同时运行 Spark 作业?
是否可以在同一个 AWS EMR 集群中同时提交和运行 Spark 作业?如果是,那么您能详细说明一下吗?
java - 通过 http 运行 livy 作业,无需每次都上传 jar
我在玩 Livy/Spark,对如何使用其中一些有点困惑。在构建作业的 livy 示例文件夹中有一个示例,该示例将上传到 spark。我喜欢正在使用的接口,但我想通过 http 连接到 livy/spark,因为我没有 java 客户端。这样看来,如果我使用 livyclient 上传 jar,它似乎只存在于该 spark 会话中。有没有办法将 livyjobs 上传到 spark 中,然后在所有 spark 中持续存在?将这些工作/应用程序改为 spark 会更好吗?
老实说,我试图找出最好的方法是什么。我希望能够通过 shell 做交互式的事情,但我也想为我经常使用的 spark 中不可用的算法制作自定义作业。我不确定我应该用什么方法来解决这个问题。有什么想法吗?我应该如何使用 Livy?就像其他服务一样,在 spark 中构建自定义应用程序/方法?
例如:
假设我有一些 javascript 应用程序,并且我有一些可以加载的数据,并且我想在其上运行算法 x。算法 x 是否在 spark 中实现,但是通过按下该按钮,我想将该数据放入 spark 中,无论是放入 hdfs 还是从 elasticsearch 中提取或其他。如果我有 livy,我想在 livy 中调用一些 rest 命令来执行此操作,然后它会运行该特定算法。这样做的标准方法是什么?
谢谢
apache-spark - 如何将 jar 添加到正在运行的 spark 上下文中?
详细地说,我正在使用 livy 创建一个 spark 会话,然后将我的作业提交给 livy 客户端,该客户端在同一个 spark 会话中运行它们。现在,如果我需要在其中一个作业中添加一个新 jar 作为依赖项,有没有办法将 jar 放入正在运行的 spark 会话中?
我试过 spark.jars,但它只在创建会话时读取,而不是在已经运行的会话中读取。
谢谢
apache - 如何保持或检查 Apache Livy 连接?
正如我们所知,创建 Apache Livy 连接的成本很高。它将创建新的应用程序并上传任务文件。
我的情况是用户可以使用我用 Java 编写的 Web Api 提交作业,然后我使用 Apache Livy Client 提交作业到 spark。
我想保留一个或固定数量的 Livy 客户端实例,并且我可以检查客户端状态,例如连接池。
java - 使用 Cloudera 5.14 和 Spark2 配置 Livy:Livy 找不到自己的 JAR 文件
我是 Cloudera 的新手,我正在尝试将工作负载从运行 Ambari 与 Livy 和 Spark 2.2.x 的 HDP 服务器移动到具有类似设置的 CDH 5 服务器。由于 Livy 不是 Cloudera 的一个组件,我使用的是来自他们网站的 0.5.0 版孵化,在与 YARN、Spark 和 HDFS 主服务器相同的服务器之一上运行它。
长话短说,当我尝试提交给 Livy 时,我收到以下错误消息:
它引用的 jar 是 Livy 安装的一部分,并且显然存在。看起来在这个过程中的某个时刻,Hadoop 正在寻找一个带有 URL 的文件,file:/home...
而不仅仅是/home...
or file:///home...
,但我不确定这是否相关,因为这可能是 HDFS 的有效路径。我已经从源代码构建了多个版本的 Livy,修改了启动脚本并远程调试它,但是这个错误似乎发生在 Spark 的某个地方。
这是我的livy.conf
文件:
并且livy-env.sh
:
旧集群使用 Hadoop 2.7.3.2.6.5.0-141 和 Spark 2.2.1。新集群运行 Hadoop 2.6.0-cdh5.14.2 和 Spark 2.2.0.cloudera2。使用旧集群的 Livy 发行版以及 Cloudera 自己的 Livy 发行版都给出了相同的基本错误。同样,所有这些东西在以前的 HDP/Ambari 集群上运行良好。
所有这些 jar 文件都存在于每个节点的该路径上,我还尝试使用 HDFS 中的 jar 进行此操作——Livy 提取它们,然后为提取的 jar 提供相同的错误消息。我还尝试了一堆具有权限的东西,但似乎都不起作用。例如,我得到:
从 Livy 的输出中,然后是...
来自 YARN 不可避免的失败。
有人有什么想法吗?如果有的话,甚至会很高兴听到 Livy 的替代品……