问题标签 [apache-zeppelin]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1545 浏览

apache-spark - zeppelin with spark 1.5.2 独立集群错误

我已将 Zeppelin 0.5.5 二进制文件下载到 redhat 6.3 实例中。我也成功构建了 spark 1.5.2。现在,我想让 zeppelin 使用那个 spark 版本,而不是 zeppelin 附带的预编译版本。

为此,我编辑了 conf/ 以便它只包含这个未注释的行:

我还编辑了 zeppelin GUI,所以现在我设置了 Master:

然后我点击重新启动并尝试再次完成教程:

org.apache.thrift.transport.TTransportException 在 org.apache.thrift.transport.TIOStreamTransport.read(TIOStreamTransport.java:132) 在 org.apache.thrift.transport.TTransport.readAll(TTransport.java:86) 在 org. org.apache.thrift.protocol.TBinaryProtocol.readI32(TBinaryProtocol.java:318) 中的 org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin(TBinaryProtocol. java:219) 在 org.apache.thrift.TServiceClient.receiveBase(TServiceClient.java:69) 在 org.apache.zeppelin.interpreter.thrift.RemoteInterpreterService$Client.recv_interpret(RemoteInterpreterService.java:220) 在 org.apache.zeppelin .interpreter.thrift.RemoteInterpreterService$Client.interpret(RemoteInterpreterService.java:205) 在 org.apache.zeppelin.interpreter.remote.RemoteInterpreter。在 org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:207) 在 org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:207) 在 org.apache.zeppelin.interpreter.LazyOpenInterpreter.interpret(LazyOpenInterpreter.java:93) 解释(RemoteInterpreter.java:211) .zeppelin.scheduler.Job.run(Job.java:170) at org.apache.zeppelin.scheduler.RemoteScheduler$JobRunner.run(RemoteScheduler.java:304) at java.util.concurrent.Executors$RunnableAdapter.call(Executors .java:471) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:178) 在 java.util.concurrent.ScheduledThreadPoolExecutor 的 java.util.concurrent.FutureTask.run(FutureTask.java:262) $ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:292) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent。ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:745)

另外,只是做

产量:

java.net.ConnectException:在 java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:200) 的 java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:339) 的 java.net.PlainSocketImpl.socketConnect(Native Method) 连接被拒绝在 java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:182) 在 java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392) 在 java.net.Socket.connect(Socket.java:579) 在 org.apache。 thrift.transport.TSocket.open(TSocket.java:182) at org.apache.zeppelin.interpreter.remote.ClientFactory.create(ClientFactory.java:51) at org.apache.zeppelin.interpreter.remote.ClientFactory.create( ClientFactory.java:37) 在 org.apache.commons.pool2.BasePooledObjectFactory.makeObject(BasePooledObjectFactory.java:60) 在 org.apache.commons.pool2.impl。org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java:435) 在 org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java: 上的 GenericObjectPool.create(GenericObjectPool.java:861): 363)在 org.apache.zeppelin.interpreter.remote.RemoteInterpreter.interpret(RemoteInterpreter.java:192)在 org.apache.zeppelin .interpreter.LazyOpenInterpreter.interpret(LazyOpenInterpreter.java:93) at org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:207) at org.apache.zeppelin.scheduler.Job.run(Job.java:170 ) 在 org.apache.zeppelin.scheduler.RemoteScheduler$JobRunner.run(RemoteScheduler.java:304) 在 java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:178) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask 的 java.util.concurrent.FutureTask.run(FutureTask.java:262)。在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread 的 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 运行(ScheduledThreadPoolExecutor.java:292) .run(Thread.java:745) 耗时 0 秒。concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:745) 花了 0 秒。concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:745) 花了 0 秒。

关于我做错了什么的任何想法?

0 投票
1 回答
369 浏览

apache-zeppelin - Apache Zeppelin Spark 解释器变量范围问题

有没有办法使用 Spark Interpreter 控制注释中声明的变量范围?
到目前为止,能够从另一个 Note 访问在一个 Note 中声明的变量

0 投票
1 回答
395 浏览

apache-spark - Apache Zeppelin 和 Spark Streaming:Twitter 示例不起作用

我刚刚从http://zeppelin-project.org/docs/tutorial/tutorial.html(“流数据教程”部分)将示例项目添加到我的 Zeppelin Notebook 中。当我运行应用程序时,我得到了异常:

也不适用于该方法的使用

0 投票
1 回答
2797 浏览

apache-spark - Apache Zeppelin 和 Spark Streaming:Twitter 示例仅适用于本地

我刚刚从http://zeppelin-project.org/docs/tutorial/tutorial.html(“流数据教程”部分)将示例项目添加到我的 Zeppelin Notebook 中。我现在遇到的问题是该应用程序似乎只能在本地工作。如果我将 Spark 解释器设置“master”从“local[*]”更改为“spark://master:7077”,当我执行相同的 SQL 语句时,应用程序将不再带来任何结果。我做错什么了吗?我已经重新启动了 Zeppelin 解释器、整个 Zeppelin 守护进程和 Spark 集群,但没有解决问题!有人可以帮忙吗。

我使用以下安装:

  • Spark 1.5.1(为 Hadoop 2.6+ 预构建),Master + 2x Slaves
  • Zeppelin 0.5.5(安装在 Spark 的主节点上)

编辑 以下安装也不适合我:

  • Spark 1.5.0(为 Hadoop 2.6+ 预构建),Master + 2x Slaves
  • Zeppelin 0.5.5(安装在 Spark 的主节点上)

屏幕截图:本地设置(有效!) 在此处输入图像描述

屏幕截图:集群设置(不起作用!) 在此处输入图像描述

该作业似乎在集群模式下正确运行: 在此处输入图像描述

0 投票
1 回答
1642 浏览

apache-spark - 将 Apache Zeppelin 与现有 Spark 集群一起使用

我想安装 Zeppelin 以使用我现有的 Spark 集群。我使用了以下方式:

  • Spark Master(Hadoop 2.4 的 Spark 1.5.0):
    • 齐柏林飞艇 0.5.5
  • 火花奴隶

我下载了 Zeppelin v0.5.5 并通过以下方式安装它:

我看到,本地 [*]主设置在没有我的 Spark 集群的情况下也可以工作(关闭 Spark 集群时笔记本也可以运行)。

我的问题:当我想将我的 Spark 集群用于 Streaming 应用程序时,它似乎无法正常工作。当我使用spark://my_server:7077作为主服务器时,我的 SQL 表为空 - 在本地模式下一切正常!

另请参阅描述该问题的我的另一个问题:Apache Zeppelin & Spark Streaming: Twitter Example only works local

我有什么问题吗

  • 通过“mvn clean packge”安装?
  • 在设置主网址?
  • Spark 和/或 Hadoop 版本(任何限制???)
  • 我是否必须在 zeppelin-env.sh 文件中设置一些特殊的东西(实际上是回到默认值)???
0 投票
1 回答
1055 浏览

apache-spark - Apache Zeppelin 在不同的机器上给出错误火花

我有一个本地火花集群设置,一台主机和一台从机。我在更多机器上安装了 Zeppelin,并尝试从 Zeppelin 运行一些命令来激发主机。为此,我创建了一个带有 master 的 spark 解释器spark://<ip>:7077

当我运行sc命令时

它给出了这个错误

java.net.ConnectException:在 java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:200) 的 java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:339) 的 java.net.PlainSocketImpl.socketConnect(Native Method) 连接被拒绝在 java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:182) 在 java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392) 在 java.net.Socket.connect(Socket.java:579) 在 org.apache。 thrift.transport.TSocket.open(TSocket.java:182) at org.apache.zeppelin.interpreter.remote.ClientFactory.create(ClientFactory.java:51) at org.apache.zeppelin.interpreter.remote.ClientFactory.create( ClientFactory.java:37) 在 org.apache.commons.pool2.BasePooledObjectFactory.makeObject(BasePooledObjectFactory.java:60) 在 org.apache.commons.pool2.impl。org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java:435) 在 org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java: 363) 在 org.apache.zeppelin.interpreter.remote.RemoteInterpreter.interpret(RemoteInterpreter.java:192) 在 org.apache.zeppelin .interpreter.LazyOpenInterpreter.interpret(LazyOpenInterpreter.java:93) at org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:207) at org.apache.zeppelin.scheduler.Job.run(Job.java:170 ) 在 org.apache.zeppelin.scheduler.RemoteScheduler$JobRunner.run(RemoteScheduler.java:304) 在 java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:178) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask 的 java.util.concurrent.FutureTask.run(FutureTask.java:262)。在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread 的 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 运行(ScheduledThreadPoolExecutor.java:292) .run(Thread.java:745)ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:745)ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:745)

我可以7077从 zeppelin 机器远程登录端口。这也是我的本地 vm 机器所以不应该是防火墙的问题,也禁用所有防火墙。

请让我知道这个问题。

0 投票
0 回答
1023 浏览

scala - Spark Scala API(Zeppelin Notebook):忽略 foreachRDD 转换的序列化

在 Zeppelin Notebook 的 Spark Scala 项目中,调用 foreachRDD 转换会导致 NotSerializableException。

这是一个通过 Windows 收集数据的流应用程序,所以我必须启用检查点:

这里的代码行(没有它,一切正常):

我收到以下错误:

但出于演示的原因,我需要这张表。

所以我的问题是:有没有可能避免这个代码行的序列化???

编辑

我发现一封似乎描述了同样问题的邮件: https ://mail-archives.apache.org/mod_mbox/spark-user/201510.mbox/%3CCAOADwJHhW7Rtv6sNpd3_y5Q12Uu6NEYLqgdT2H-WcnOf+3Aa-g@mail.gmail.com%3E

有人可以提供线索吗?

0 投票
1 回答
798 浏览

apache-zeppelin - 通过 zeppelin web ui 传递命令行参数以触发提交

我想配置 zeppeline spark 解释器。我想--conf "spark.cassandra.connection.host=<ip>" --conf "spark.cassandra.input.split.size_in_mb=32" and --jars $(echo /home/sysadmin/ApacheSpark/jar/*.jar | tr ' ' ',')通过我的 zeppelin ui 解释器传递选项来触发提交。

我怎样才能通过它们?由于我有很多 cassandra 机器,我想创建多个 spark 解释器,因此不想在 zeppelin-env 文件中添加配置,如此处所述

0 投票
0 回答
340 浏览

apache-zeppelin - Zeppelin:用户可以使用 %sh 语句运行恶意命令吗?

我想知道 Zeppelin 提供什么类型的安全性来避免用户运行 shell 命令(使用 %sh),例如,从磁盘中删除文件。

例如,看看这里的 Bash 解释器测试

0 投票
1 回答
3140 浏览

apache-spark - Zeppelin 和 SqlContext

我有一个真正简单的 Zeppelin 笔记本,包含三个段落 - 基于 Zeppelin-Demo 笔记本,但唯一的区别是 bankText RDD 是使用 textFile 方法创建的。

第 1 段:

第 2 段:

第 3 段:

第 1 段和第 2 段运行良好 - 但第三段错误:

Zeppelin 演示运行良好。我在我的沙箱上运行它,它使用为 Hadoop 2.6 (spark-1.5.2-bin-hadoop2.6.tgz) 和 Zeppelin 0.5.5 构建的 spark 1.5.2 - 再次是二进制 zeppelin-0.5.5-incubating-bin -all.tgz。

我怀疑这与 SqlContext 有关——因为我相信 Zeppelin 注入了它自己的 SqlContext。

有小费吗?感觉就像我错过了一些非常简单的东西。