问题标签 [apache-spark-1.5]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
698 浏览

apache-spark-1.5 - 使用 spark-submit 命令获取结果后 spark 驱动程序停止

我已经安装了 spark-1.5.1 独立模式并使用 spark-submit 命令获取结果。实际上我想使用 spark hidden rest API 获得结果。当 spark-driver 停止时,我无法使用 rest API 获得结果。

使用 spark-submit 挖掘后,我发现在输出所有 spark-context 后,驱动程序被停止。

有人可以帮忙吗

这是控制台结果:-

结果-a 行:60,b 行:29 15/11/01 08:46:08 INFO SparkContext:从关闭挂钩调用 stop() 15/11/01 08:46:08 INFO ContextHandler:停止 oejsServletContextHandler{ /metrics/json,null} 15/11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/stages/stage/kill,null} 15/11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/api ,null} 15/11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/,null} 15/11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/static,null} 15/11/01 08 :46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/executors/threadDump/json,null} 15/11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/executors/threadDump,null} 15/11/01 08:46 :08 INFO ContextHandler: 停止 oejsServletContextHandler{/executors/json,null} 15/11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/executors,null} 15/11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/environment/json ,null} 15/11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/environment,null} 15/11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/storage/rdd/json,null} 15 /11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/storage/rdd,null} 15/11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/storage/json,null} 15/11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/storage,null} 15/11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/stages/pool/json,null} 15/11/01 08:46: 08 信息上下文处理程序:停止 oejsServletContextHandler{/stages/pool,null} 15/11/01 08:46:08 信息 ContextHandler:停止 oejsServletContextHandler{/stages/stage/json,null} 15/11/01 08:46:08 信息 ContextHandler:停止 oejsServletContextHandler {/stages/stage,null} 15/11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/stages/json,null} 15/11/01 08:46:08 INFO ContextHandler: 停止 oejsServletContextHandler{/stages,空} 15/11/01 08:46:08 信息上下文处理程序:停止 oejsServletContextHandler{/jobs/job/json,null} 15/11/01 08:46:08 信息上下文处理程序:停止 oejsServletContextHandler{/jobs/job,null} 15/11/01 08:46:08 INFO ContextHandler:停止 oejsServletContextHandler{/jobs/json,null} 15/11/01 08:46:08 INFO ContextHandler:停止 oejsServletContextHandler{/jobs,null} 15/11/01 08 :46:08 信息 SparkUI:停止 Spark Web UI 于http://182.95.208.242:4040 15/11/01 08:46:08 INFO DAGScheduler:停止 DAGScheduler 15/11/01 08:46:08 INFO SparkDeploySchedulerBackend:关闭所有执行程序 15/11/01 08:46:08 INFO SparkDeploySchedulerBackend:要求每个执行程序关闭下来 15/11/01 08:46:09 信息 MapOutputTrackerMasterEndpoint:MapOutputTrackerMasterEndpoint 停止了!15/11/01 08:46:09 信息 MemoryStore:MemoryStore 已清除 15/11/01 08:46:09 信息 BlockManager:BlockManager 停止 15/11/01 08:46:09 信息 BlockManagerMaster:BlockManagerMaster 停止 15/11/01 08:46:09 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint:OutputCommitCoordinator 停止!15/11/01 08:46:09 信息 SparkContext:成功停止 SparkContext 15/11/01 08:46:09 信息 ShutdownHookManager:关闭挂钩调用 15/11/01 08:46:09 信息 ShutdownHookManager:删除目录 /tmp/spark-a2d4622c-d3c0-447b-aa73-21a3b6af1539 15/11/01 08:46:09 INFO RemoteActorRefProvider$RemotingTerminator:关闭远程守护程序。15/11/01 08:46:09 INFO RemoteActorRefProvider$RemotingTerminator:远程守护进程关闭;继续冲洗远程传输。ipieawb1@master:~/spark-1.5.1/bin$

我正在尝试运行简单的代码,例如

公共类 SimpleApp { public static void main(String[] args) 抛出 InterruptedException {

} }

0 投票
1 回答
761 浏览

apache-spark - Apache Spark 数据框 createJDBCTable 异常

保存到 JDBC相关,尝试导入文本文件并保存到 Hive JDBC 文件以供报告工具导入。

我们正在运行 spark-1.5.1-bin-hadoop2.6 (master + 1 slave)、JDBC thrift 服务器和 beeline 客户端。他们似乎都相互联系和交流。据我了解,Hive 包含在此版本中的 datanucleus jar 中。我已配置目录来保存 Hive 文件,但没有 conf/hive-config.xml。

简单的输入 CSV 文件:

用户表已在直线客户端中使用

对于 master 上的 scala REPL 会话:

或者

或者

投掷

有什么想法我哪里出错了吗?这个版本真的可以从 DataFrame 中写入 JDBC 文件吗?

谢谢你的帮助!

乔恩

0 投票
2 回答
469 浏览

hadoop - Spark 的 oozie 等价物是什么?

我们有非常复杂的管道,我们需要对其进行组合和调度。我看到 Hadoop 生态系统为此提供了 Oozie。当我在 Mesos 或 Standalone 上运行 Spark 并且没有 Hadoop 集群时,基于 Spark 的作业有哪些选择?

0 投票
0 回答
234 浏览

apache-spark - 在apache spark中将部分数据从一个分区复制到另一个分区

我有一个用例,我开始根据键对数据进行分区。属于一个键的所有数据都保留在一个分区上。例如

键 1 -> 分区 1 键 2 -> 分区 2

现在一段时间后,我可能需要合并 key1 和 key2。因此,我只想将所有数据从 key2 传输到 key1,即从 partition2 传输到 partition1。在apache spark中可以吗?我不想重新分区所有内容,因为这对我来说代价高昂。

0 投票
6 回答
67748 浏览

apache-spark - “插入...”与 SparkSQL HiveContext

我正在尝试使用我的 HiveContext 运行插入语句,如下所示:

1.5.2 Spark SQL 文档没有明确说明是否支持这一点,尽管它确实支持“动态分区插入” 。

这会导致堆栈跟踪,例如

有没有其他方法可以插入到受支持的 Hive 表

0 投票
2 回答
1021 浏览

mongodb - Passing additional jars to Spark via spark-submit

I'm using Spark with MongoDB, and consequently rely on the mongo-hadoop drivers. I got things working thanks to input on my original question here.

My Spark job is running, however, I receive warnings that I don't understand. When I run this command

it works, but gives me the following warning message

Warning: Local jar /usr/local/share/mongo-hadoop/build/libs/mongo-hadoop-1.5.0-SNAPSHOT.jar:/usr/local/share/mongo-hadoop/spark/build/libs/mongo-hadoop-spark-1.5.0-SNAPSHOT.jar does not exist, skipping.

When I was trying to get this working, if I left out those paths when submitting the job it wouldn't run at all. Now, however, if I leave out those paths it does run

Can someone please explain what is going on here? I have looked through similar questions here referencing the same warning, and searched through the documentation.

By setting the options once are they stored as environment variables or something? I'm glad it works, but wary that I don't fully understand why sometimes and not others.

0 投票
1 回答
1545 浏览

apache-spark - zeppelin with spark 1.5.2 独立集群错误

我已将 Zeppelin 0.5.5 二进制文件下载到 redhat 6.3 实例中。我也成功构建了 spark 1.5.2。现在,我想让 zeppelin 使用那个 spark 版本,而不是 zeppelin 附带的预编译版本。

为此,我编辑了 conf/ 以便它只包含这个未注释的行:

我还编辑了 zeppelin GUI,所以现在我设置了 Master:

然后我点击重新启动并尝试再次完成教程:

org.apache.thrift.transport.TTransportException 在 org.apache.thrift.transport.TIOStreamTransport.read(TIOStreamTransport.java:132) 在 org.apache.thrift.transport.TTransport.readAll(TTransport.java:86) 在 org. org.apache.thrift.protocol.TBinaryProtocol.readI32(TBinaryProtocol.java:318) 中的 org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin(TBinaryProtocol. java:219) 在 org.apache.thrift.TServiceClient.receiveBase(TServiceClient.java:69) 在 org.apache.zeppelin.interpreter.thrift.RemoteInterpreterService$Client.recv_interpret(RemoteInterpreterService.java:220) 在 org.apache.zeppelin .interpreter.thrift.RemoteInterpreterService$Client.interpret(RemoteInterpreterService.java:205) 在 org.apache.zeppelin.interpreter.remote.RemoteInterpreter。在 org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:207) 在 org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:207) 在 org.apache.zeppelin.interpreter.LazyOpenInterpreter.interpret(LazyOpenInterpreter.java:93) 解释(RemoteInterpreter.java:211) .zeppelin.scheduler.Job.run(Job.java:170) at org.apache.zeppelin.scheduler.RemoteScheduler$JobRunner.run(RemoteScheduler.java:304) at java.util.concurrent.Executors$RunnableAdapter.call(Executors .java:471) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:178) 在 java.util.concurrent.ScheduledThreadPoolExecutor 的 java.util.concurrent.FutureTask.run(FutureTask.java:262) $ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:292) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent。ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:745)

另外,只是做

产量:

java.net.ConnectException:在 java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:200) 的 java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:339) 的 java.net.PlainSocketImpl.socketConnect(Native Method) 连接被拒绝在 java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:182) 在 java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392) 在 java.net.Socket.connect(Socket.java:579) 在 org.apache。 thrift.transport.TSocket.open(TSocket.java:182) at org.apache.zeppelin.interpreter.remote.ClientFactory.create(ClientFactory.java:51) at org.apache.zeppelin.interpreter.remote.ClientFactory.create( ClientFactory.java:37) 在 org.apache.commons.pool2.BasePooledObjectFactory.makeObject(BasePooledObjectFactory.java:60) 在 org.apache.commons.pool2.impl。org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java:435) 在 org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java: 上的 GenericObjectPool.create(GenericObjectPool.java:861): 363)在 org.apache.zeppelin.interpreter.remote.RemoteInterpreter.interpret(RemoteInterpreter.java:192)在 org.apache.zeppelin .interpreter.LazyOpenInterpreter.interpret(LazyOpenInterpreter.java:93) at org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:207) at org.apache.zeppelin.scheduler.Job.run(Job.java:170 ) 在 org.apache.zeppelin.scheduler.RemoteScheduler$JobRunner.run(RemoteScheduler.java:304) 在 java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:178) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask 的 java.util.concurrent.FutureTask.run(FutureTask.java:262)。在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread 的 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 运行(ScheduledThreadPoolExecutor.java:292) .run(Thread.java:745) 耗时 0 秒。concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:745) 花了 0 秒。concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:745) 花了 0 秒。

关于我做错了什么的任何想法?

0 投票
1 回答
690 浏览

apache-spark - spark.shuffle.spill 为 false 但溢出仍在 spark 1.5.0 中发生

我将 spark.shuffle.spill 设置为 false,但是当我检查执行程序日志时,spark 1.5.0 中仍然发生溢出。我搜索了 spark github repo,发现他们将在 1.6.0 中忽略此配置参数,并在必要时继续溢出。但是我使用的是1.5.0,不知道在早期版本中是否已经生效。

0 投票
3 回答
28776 浏览

apache-spark - 在 Spark DataFrame 中将空值转换为空数组

我有一个 Spark 数据框,其中一列是整数数组。该列可以为空,因为它来自左外连接。我想将所有空值转换为一个空数组,这样我以后就不必处理空值了。

我以为我可以这样做:

但是,这会导致以下异常:

when显然,该函数不支持数组类型。还有其他简单的方法来转换空值吗?

如果它是相关的,这里是这个列的架构:

0 投票
2 回答
3473 浏览

apache-spark - 我可以在同一个节点上拥有一个 master 和 worker 吗?

我有一个 3 节点 spark 独立集群,在主节点上我也有一个 worker。当我向集群提交一个应用程序时,另外两个工作人员开始运行,但主节点上的工作人员保持状态 LOADING,最终另一个工作人员在其他机器上启动。

在同一个节点上有一个工人和一个主人是问题吗?如果是,有没有办法解决这个问题,或者我永远不应该在同一个节点上有一个工人和一个主人?

PS 每台机器有 8 个内核,工作人员设置为使用 7 个而不是所有 RAM