“apache-zeppelin”的相关标签问题

0 投票

1 回答

1545 浏览

apache-spark - zeppelin with spark 1.5.2 独立集群错误

我已将 Zeppelin 0.5.5 二进制文件下载到 redhat 6.3 实例中。我也成功构建了 spark 1.5.2。现在，我想让 zeppelin 使用那个 spark 版本，而不是 zeppelin 附带的预编译版本。

为此，我编辑了 conf/ 以便它只包含这个未注释的行：

我还编辑了 zeppelin GUI，所以现在我设置了 Master：

然后我点击重新启动并尝试再次完成教程：

org.apache.thrift.transport.TTransportException 在 org.apache.thrift.transport.TIOStreamTransport.read(TIOStreamTransport.java:132) 在 org.apache.thrift.transport.TTransport.readAll(TTransport.java:86) 在 org. org.apache.thrift.protocol.TBinaryProtocol.readI32(TBinaryProtocol.java:318) 中的 org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin(TBinaryProtocol. java:219) 在 org.apache.thrift.TServiceClient.receiveBase(TServiceClient.java:69) 在 org.apache.zeppelin.interpreter.thrift.RemoteInterpreterService$Client.recv_interpret(RemoteInterpreterService.java:220) 在 org.apache.zeppelin .interpreter.thrift.RemoteInterpreterService$Client.interpret(RemoteInterpreterService.java:205) 在 org.apache.zeppelin.interpreter.remote.RemoteInterpreter。在 org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:207) 在 org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:207) 在 org.apache.zeppelin.interpreter.LazyOpenInterpreter.interpret(LazyOpenInterpreter.java:93) 解释(RemoteInterpreter.java:211) .zeppelin.scheduler.Job.run(Job.java:170) at org.apache.zeppelin.scheduler.RemoteScheduler$JobRunner.run(RemoteScheduler.java:304) at java.util.concurrent.Executors$RunnableAdapter.call(Executors .java:471) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:178) 在 java.util.concurrent.ScheduledThreadPoolExecutor 的 java.util.concurrent.FutureTask.run(FutureTask.java:262) $ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:292) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent。ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:745)

另外，只是做

产量：

java.net.ConnectException：在 java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:200) 的 java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:339) 的 java.net.PlainSocketImpl.socketConnect(Native Method) 连接被拒绝在 java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:182) 在 java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392) 在 java.net.Socket.connect(Socket.java:579) 在 org.apache。 thrift.transport.TSocket.open(TSocket.java:182) at org.apache.zeppelin.interpreter.remote.ClientFactory.create(ClientFactory.java:51) at org.apache.zeppelin.interpreter.remote.ClientFactory.create( ClientFactory.java:37) 在 org.apache.commons.pool2.BasePooledObjectFactory.makeObject(BasePooledObjectFactory.java:60) 在 org.apache.commons.pool2.impl。org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java:435) 在 org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java: 上的 GenericObjectPool.create(GenericObjectPool.java:861)： 363）在 org.apache.zeppelin.interpreter.remote.RemoteInterpreter.interpret（RemoteInterpreter.java:192）在 org.apache.zeppelin .interpreter.LazyOpenInterpreter.interpret(LazyOpenInterpreter.java:93) at org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:207) at org.apache.zeppelin.scheduler.Job.run(Job.java:170 ) 在 org.apache.zeppelin.scheduler.RemoteScheduler$JobRunner.run(RemoteScheduler.java:304) 在 java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:178) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask 的 java.util.concurrent.FutureTask.run(FutureTask.java:262)。在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread 的 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 运行(ScheduledThreadPoolExecutor.java:292) .run(Thread.java:745) 耗时 0 秒。concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:745) 花了 0 秒。concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:745) 花了 0 秒。

关于我做错了什么的任何想法？

2015-12-11T10:31:18.600

0 投票

1 回答

369 浏览

apache-zeppelin - Apache Zeppelin Spark 解释器变量范围问题

有没有办法使用 Spark Interpreter 控制注释中声明的变量范围？
到目前为止，能够从另一个 Note 访问在一个 Note 中声明的变量

apache-zeppelin

2015-12-14T16:46:04.647

0 投票

1 回答

395 浏览

apache-spark - Apache Zeppelin 和 Spark Streaming：Twitter 示例不起作用

我刚刚从http://zeppelin-project.org/docs/tutorial/tutorial.html（“流数据教程”部分）将示例项目添加到我的 Zeppelin Notebook 中。当我运行应用程序时，我得到了异常：

它也不适用于该方法的使用

apache-spark spark-streaming apache-zeppelin

2015-12-15T16:35:24.310

0 投票

1 回答

2797 浏览

apache-spark - Apache Zeppelin 和 Spark Streaming：Twitter 示例仅适用于本地

我刚刚从http://zeppelin-project.org/docs/tutorial/tutorial.html（“流数据教程”部分）将示例项目添加到我的 Zeppelin Notebook 中。我现在遇到的问题是该应用程序似乎只能在本地工作。如果我将 Spark 解释器设置“master”从“local[*]”更改为“spark://master:7077”，当我执行相同的 SQL 语句时，应用程序将不再带来任何结果。我做错什么了吗？我已经重新启动了 Zeppelin 解释器、整个 Zeppelin 守护进程和 Spark 集群，但没有解决问题！有人可以帮忙吗。

我使用以下安装：

Spark 1.5.1（为 Hadoop 2.6+ 预构建），Master + 2x Slaves
Zeppelin 0.5.5（安装在 Spark 的主节点上）

编辑以下安装也不适合我：

Spark 1.5.0（为 Hadoop 2.6+ 预构建），Master + 2x Slaves
Zeppelin 0.5.5（安装在 Spark 的主节点上）

屏幕截图：本地设置（有效！）

屏幕截图：集群设置（不起作用！）

该作业似乎在集群模式下正确运行：

apache-spark apache-spark-sql spark-streaming apache-zeppelin

2015-12-15T18:36:12.770

0 投票

1 回答

1642 浏览

apache-spark - 将 Apache Zeppelin 与现有 Spark 集群一起使用

我想安装 Zeppelin 以使用我现有的 Spark 集群。我使用了以下方式：

Spark Master（Hadoop 2.4 的 Spark 1.5.0）：
- 齐柏林飞艇 0.5.5
火花奴隶

我下载了 Zeppelin v0.5.5 并通过以下方式安装它：

我看到，本地 [*]主设置在没有我的 Spark 集群的情况下也可以工作（关闭 Spark 集群时笔记本也可以运行）。

我的问题：当我想将我的 Spark 集群用于 Streaming 应用程序时，它似乎无法正常工作。当我使用spark://my_server:7077作为主服务器时，我的 SQL 表为空 - 在本地模式下一切正常！

另请参阅描述该问题的我的另一个问题：Apache Zeppelin & Spark Streaming: Twitter Example only works local

我有什么问题吗

通过“mvn clean packge”安装？
在设置主网址？
Spark 和/或 Hadoop 版本（任何限制？？？）
我是否必须在 zeppelin-env.sh 文件中设置一些特殊的东西（实际上是回到默认值）？？？

apache-spark spark-streaming hadoop2 apache-zeppelin

2015-12-16T13:30:24.233

0 投票

1 回答

1055 浏览

apache-spark - Apache Zeppelin 在不同的机器上给出错误火花

我有一个本地火花集群设置，一台主机和一台从机。我在更多机器上安装了 Zeppelin，并尝试从 Zeppelin 运行一些命令来激发主机。为此，我创建了一个带有 master 的 spark 解释器spark://<ip>:7077

当我运行sc命令时

它给出了这个错误

java.net.ConnectException：在 java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:200) 的 java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:339) 的 java.net.PlainSocketImpl.socketConnect(Native Method) 连接被拒绝在 java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:182) 在 java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392) 在 java.net.Socket.connect(Socket.java:579) 在 org.apache。 thrift.transport.TSocket.open(TSocket.java:182) at org.apache.zeppelin.interpreter.remote.ClientFactory.create(ClientFactory.java:51) at org.apache.zeppelin.interpreter.remote.ClientFactory.create( ClientFactory.java:37) 在 org.apache.commons.pool2.BasePooledObjectFactory.makeObject(BasePooledObjectFactory.java:60) 在 org.apache.commons.pool2.impl。org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java:435) 在 org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java: 363) 在 org.apache.zeppelin.interpreter.remote.RemoteInterpreter.interpret(RemoteInterpreter.java:192) 在 org.apache.zeppelin .interpreter.LazyOpenInterpreter.interpret(LazyOpenInterpreter.java:93) at org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:207) at org.apache.zeppelin.scheduler.Job.run(Job.java:170 ) 在 org.apache.zeppelin.scheduler.RemoteScheduler$JobRunner.run(RemoteScheduler.java:304) 在 java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:178) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask 的 java.util.concurrent.FutureTask.run(FutureTask.java:262)。在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread 的 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 运行(ScheduledThreadPoolExecutor.java:292) .run(Thread.java:745)ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:745)ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:745)

我可以7077从 zeppelin 机器远程登录端口。这也是我的本地 vm 机器所以不应该是防火墙的问题，也禁用所有防火墙。

请让我知道这个问题。

apache-spark apache-zeppelin

2015-12-18T10:33:49.767

0 投票

0 回答

1023 浏览

scala - Spark Scala API（Zeppelin Notebook）：忽略 foreachRDD 转换的序列化

在 Zeppelin Notebook 的 Spark Scala 项目中，调用 foreachRDD 转换会导致 NotSerializableException。

这是一个通过 Windows 收集数据的流应用程序，所以我必须启用检查点：

这里的代码行（没有它，一切正常）：

我收到以下错误：

但出于演示的原因，我需要这张表。

所以我的问题是：有没有可能避免这个代码行的序列化？？？

编辑

我发现一封似乎描述了同样问题的邮件： https ://mail-archives.apache.org/mod_mbox/spark-user/201510.mbox/%3CCAOADwJHhW7Rtv6sNpd3_y5Q12Uu6NEYLqgdT2H-WcnOf+3Aa-g@mail.gmail.com%3E

有人可以提供线索吗？

scala apache-spark spark-streaming apache-zeppelin

2015-12-18T13:50:48.043

0 投票

1 回答

798 浏览

apache-zeppelin - 通过 zeppelin web ui 传递命令行参数以触发提交

我想配置 zeppeline spark 解释器。我想--conf "spark.cassandra.connection.host=<ip>" --conf "spark.cassandra.input.split.size_in_mb=32" and --jars $(echo /home/sysadmin/ApacheSpark/jar/*.jar | tr ' ' ',')通过我的 zeppelin ui 解释器传递选项来触发提交。

我怎样才能通过它们？由于我有很多 cassandra 机器，我想创建多个 spark 解释器，因此不想在 zeppelin-env 文件中添加配置，如此处所述。

apache-zeppelin

2015-12-26T00:49:06.163

0 投票

0 回答

340 浏览

apache-zeppelin - Zeppelin：用户可以使用 %sh 语句运行恶意命令吗？

我想知道 Zeppelin 提供什么类型的安全性来避免用户运行 shell 命令（使用 %sh），例如，从磁盘中删除文件。

例如，看看这里的 Bash 解释器测试

apache-zeppelin

2015-12-29T20:58:55.180

0 投票

1 回答

3140 浏览

apache-spark - Zeppelin 和 SqlContext

我有一个真正简单的 Zeppelin 笔记本，包含三个段落 - 基于 Zeppelin-Demo 笔记本，但唯一的区别是 bankText RDD 是使用 textFile 方法创建的。

第 1 段：

第 2 段：

第 3 段：

第 1 段和第 2 段运行良好 - 但第三段错误：

Zeppelin 演示运行良好。我在我的沙箱上运行它，它使用为 Hadoop 2.6 (spark-1.5.2-bin-hadoop2.6.tgz) 和 Zeppelin 0.5.5 构建的 spark 1.5.2 - 再次是二进制 zeppelin-0.5.5-incubating-bin -all.tgz。

我怀疑这与 SqlContext 有关——因为我相信 Zeppelin 注入了它自己的 SqlContext。

有小费吗？感觉就像我错过了一些非常简单的东西。

apache-spark apache-spark-sql apache-zeppelin

2015-12-30T19:41:17.167

问题标签 [apache-zeppelin]

Reference