问题标签 [spark-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
371 浏览

scala - Spark-shell 无法读取 CSV 文件,在本地模式下超时失败

我得到了这个例外

java.io.IOException:无法连接到 org.apache.spark.network.client.TransportClientFactory 的 org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:232) 的 /192.168.1.112:51351。 createClient(TransportClientFactory.java:182) at org.apache.spark.rpc.netty.NettyRpcEnv.downloadClient(NettyRpcEnv.scala:366) at org.apache.spark.rpc.netty.NettyRpcEnv.openChannel(NettyRpcEnv.scala:332)在 org.apache.spark.util.Utils$.doFetchFile(Utils.scala:654) 在 org.apache.spark.util.Utils$.fetchFile(Utils.scala:480) 在 org.apache.spark.executor.Executor $$anonfun$org$apache$spark$executor$Executor$$updateDependencies$5.apply(Executor.scala:696) at org.apache.spark.executor.Executor$$anonfun$org$apache$spark$executor$Executor$ $updateDependencies$5.apply(Executor.scala:688)在 scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:733) 在 scala.collection.Iterator$class.foreach(Ite​​rator.scala:893) 在 scala.collection.AbstractIterator.foreach (Iterator.scala:1336) 在 scala.collection.IterableLike$class.foreach(Ite​​rableLike.scala:72) 在 scala.collection.AbstractIterable.foreach(Ite​​rable.scala:54) 在 scala.collection.TraversableLike$WithFilter.foreach( TraversableLike.scala:732) at org.apache.spark.executor.Executor.org$apache$spark$executor$Executor$$updateDependencies(Executor.scala:688) at org.apache.spark.executor.Executor$TaskRunner.run (Executor.scala:308) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) 在 java.lang.Thread.run(Thread.java:748) 引起:io.netty.channel.AbstractChannel$AnnotatedConnectException:操作超时:/192.168.1.112:51351 在 sun.nio.ch.SocketChannelImpl.checkConnect (本机方法)在 sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717) 在 io.netty.channel.socket.nio.NioSocketChannel.doFinishConnect(NioSocketChannel.java:257) 在 io.netty.channel.nio .AbstractNioChannel$AbstractNioUnsafe.finishConnect(AbstractNioChannel.java:291) 在 io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:631) 在 io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:566) ) 在 io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java: io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:480)442) 在 io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:131) 在 io.netty.util.concurrent.DefaultThreadFactory$DefaultRunnableDecorator.run(DefaultThreadFactory.java:144) ... 还有 1 个

0 投票
1 回答
114 浏览

hadoop-yarn - 纱线和火花外壳作业上的火花作业的资源管理

我们公司在cloudera上有一个9节点的集群。

我们有 41 个长期运行的 spark 流作业 [YARN + 集群模式] 和一些计划在每天下午 1 点运行的常规 spark shell 作业。

当前所有作业都以用户 A 角色提交[具有 root 权限]

我遇到的问题是,当所有 41 个 spark 流作业都在运行时,我的计划作业将无法获得资源来运行。

我已经尝试过 YARN 公平调度程序,但计划的作业仍然没有运行。

我们希望 spark 流作业始终在运行,但它会减少其他计划作业启动时占用的资源。

请随时分享您的建议或可能的解决方案。

0 投票
1 回答
121 浏览

scala - 当我尝试创建名称为“org”的变量时,为什么会引发 shell 抛出错误?

我尝试在 spark shell(Scala 版本 2.10.5) 中创建名称为“org”的变量/val,但抛出错误

我尝试了 var 和 val。

错误:值 apache 不是 List[Int] org.apache.spark.sql.catalyst.encoders.OuterScopes.addOuterScope(this) 的成员

0 投票
1 回答
1038 浏览

azure - 将数据作为 Json 从 DataFrame 写入 Azure Blob 存储

我在数据框中有一些数据,我必须将其转换为 json 并将其存储到 Azure Blob 存储中。有什么办法可以做到这一点?以下是我尝试过的步骤。我正在从 spark-shell 尝试它。

在运行写入命令时,我遇到以下错误

在提供 blob 详细信息时,我有什么遗漏吗?下面是我的存储帐户的屏幕截图:

在此处输入图像描述

我还没有在这里看到任何类似的问题,它会将数据帧作为 Json 写入 Azure Blob。

0 投票
0 回答
597 浏览

apache-spark - 纱线上的火花,对等方重置连接

搜索了很多但都是徒劳的,这是 AWS 中的一个 3 节点 EC2 集群,检查了磁盘空间、资源、正在运行的服务,一切似乎都很好,但我得到了这个错误。请帮助解决这个问题。

10.0.1.5 和 10.0.1.6 是数据节点,我只是从 namenode 运行 spark-shell。

编辑了最小的配置,如果需要我也可以在这里发布。

0 投票
1 回答
87 浏览

scala - spark-shell中的行与列表

Spark Row 和 Scala List 有什么区别,两者都提供了一种按索引访问项目的方法 何时使用哪一个

我在 Row 中看到的唯一区别是它有一些模式。

请帮助我理解为什么 Row 出现在图片中。

0 投票
1 回答
188 浏览

scala - 通过 Spark-Shell 运行时获取分区日志

我在 EMR 集群中使用 Spark-Shell 运行我的代码。示例是:

现在我有类似的代码

问题是我无法获取分区日志。我该如何分析。

版本:

0 投票
0 回答
328 浏览

apache-spark - Spark on Yarn 错误:Yarn 应用程序已经结束!它可能已被杀死或无法启动应用程序主控

开始spark-shell --master yarn --deploy-mode client时出现错误:

纱线应用已经结束!它可能已被杀死或无法启动应用程序主控。

以下是 Yarn 的完整日志:

19/08/28 00:54:55 INFO client.RMProxy: 在 /0.0.0.0:8032 连接到 ResourceManager

容器: rhel7-cloudera-dev_33917 上的 container_1566921956926_0010_01_000001 ========================================== ======================================= LogType:stderr 日志上传时间:28-Aug-2019 00:46:31 LogLength:523 日志内容:SLF4J:类路径包含多个 SLF4J 绑定。SLF4J:在 [jar:file:/yarn/local/usercache/rhel/filecache/26/__spark_libs__5634501618166443611.zip/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class] 中找到绑定在 [jar:file:/etc/hadoop-2.6.0/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J 中找到绑定:参见http ://www.slf4j.org/codes.html#multiple_bindings进行解释。SLF4J:实际绑定的类型为 [org.slf4j.impl.Log4jLoggerFactory]

LogType:stdout 日志上传时间:2019 年 8 月 28 日 00:46:31 LogLength:5597 日志内容:2019-08-28 00:46:19 INFO SignalUtils:54 - 为 TERM 2019-08-28 00 注册的信号处理程序: 46:19 INFO SignalUtils:54 - 为 HUP 注册的信号处理程序 2019-08-28 00:46:19 INFO SignalUtils:54 - 为 INT 注册的信号处理程序 2019-08-28 00:46:19 INFO SecurityManager:54 - 更改视图acls 为:yarn,rhel 2019-08-28 00:46:19 INFO SecurityManager:54 - 将修改 acls 更改为:yarn,rhel 2019-08-28 00:46:19 INFO SecurityManager:54 - 将视图 acls 组更改为: 2019-08-28 00:46:19 INFO SecurityManager:54 - 将修改 acls 组更改为:2019-08-28 00:46:19 INFO SecurityManager:54 - SecurityManager:身份验证已禁用;ui acls 禁用;具有查看权限的用户:Set(yarn, rhel); 具有查看权限的组:Set();具有修改权限的用户:Set(yarn, rhel); 具有修改权限的组:Set() 2019-08-28 00:46:20 INFO ApplicationMaster:54 - 准备本地资源 2019-08-28 00:46:21 INFO ApplicationMaster:54 - ApplicationAttemptId: appattempt_1566921956926_0010_000001 2019-08-28 00 :46:21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用:rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后(0 毫秒花费在引导程序中)2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文:env: CLASSPATH -> {{PWD}}{{PWD}}/ 瑞尔);具有修改权限的组:Set() 2019-08-28 00:46:20 INFO ApplicationMaster:54 - 准备本地资源 2019-08-28 00:46:21 INFO ApplicationMaster:54 - ApplicationAttemptId: appattempt_1566921956926_0010_000001 2019-08-28 00 :46:21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用:rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后(0 毫秒花费在引导程序中)2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文:env: CLASSPATH -> {{PWD}}{{PWD}}/ 瑞尔);具有修改权限的组:Set() 2019-08-28 00:46:20 INFO ApplicationMaster:54 - 准备本地资源 2019-08-28 00:46:21 INFO ApplicationMaster:54 - ApplicationAttemptId: appattempt_1566921956926_0010_000001 2019-08-28 00 :46:21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用:rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后(0 毫秒花费在引导程序中)2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文:env: CLASSPATH -> {{PWD}}{{PWD}}/ Set() 2019-08-28 00:46:20 INFO ApplicationMaster:54 - 准备本地资源 2019-08-28 00:46:21 INFO ApplicationMaster:54 - ApplicationAttemptId: appattempt_1566921956926_0010_000001 2019-08-28 00:46:21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用:rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后(0 毫秒花费在引导程序中)2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文:env: CLASSPATH -> {{PWD}}{{PWD}}/ Set() 2019-08-28 00:46:20 INFO ApplicationMaster:54 - 准备本地资源 2019-08-28 00:46:21 INFO ApplicationMaster:54 - ApplicationAttemptId: appattempt_1566921956926_0010_000001 2019-08-28 00:46:21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用:rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后(0 毫秒花费在引导程序中)2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文:env: CLASSPATH -> {{PWD}}{{PWD}}/ 54 - 准备本地资源 2019-08-28 00:46:21 INFO ApplicationMaster:54 - ApplicationAttemptId: appattempt_1566921956926_0010_000001 2019-08-28 00:46:21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用:rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后(0 毫秒花费在引导程序中)2019-08-28 00:46:22 INFO ApplicationMaster:54 - ================== ==================================================== ========== YARN 执行器启动上下文:env: CLASSPATH -> {{PWD}}{{PWD}}/ 54 - 准备本地资源 2019-08-28 00:46:21 INFO ApplicationMaster:54 - ApplicationAttemptId: appattempt_1566921956926_0010_000001 2019-08-28 00:46:21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用:rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后(0 毫秒花费在引导程序中)2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文:env: CLASSPATH -> {{PWD}}{{PWD}}/ 21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用:rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后(0 毫秒花费在引导程序中)2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文:env: CLASSPATH -> {{PWD}}{{PWD}}/ 21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用:rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后(0 毫秒花费在引导程序中)2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文:env: CLASSPATH -> {{PWD}}{{PWD}}/spark_conf {{PWD}}/ spark_libs / $HADOOP_CONF_DIR$HADOOP_COMMON_HOME/share/hadoop/common/ $HADOOP_COMMON_HOME/share/hadoop/common/lib/ $HADOOP_HDFS_HOME/share/hadoop/hdfs/ $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib / $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/ $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/ $HADOOP_YARN_HOME/share/hadoop/yarn/ $HADOOP_YARN_HOME/share/hadoop/yarn/lib/* $HADOOP_COMMON_HOME/ $HADOOP_COMMON_HOME/lib/ $HADOOP_HDFS_HOME/ $HADOOP_HDFS_HOME/lib/ $HADOOP_MAPRED_HOME/ $HADOOP_MAPRED_HOME/lib/ $HADOOP_YARN_HOME/ $HADOOP_YARN_HOME/lib/ $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/ /etc/hadoop-2.6.0/etc/hadoop:/etc/hadoop-2.6.0/share/hadoop/common/lib/ :/etc/hadoop-2.6.0 /share/hadoop/common/ :/etc/hadoop-2.6.0/share/hadoop/hdfs:/etc/hadoop-2.6.0/share/hadoop/hdfs/lib/ :/etc/hadoop-2.6.0/共享/hadoop/hdfs/:/etc/hadoop-2.6.0/share/hadoop/yarn/lib/:/etc/hadoop-2.6.0/share/hadoop/yarn/:/etc/hadoop-2.6.0/ _ _共享/hadoop/mapreduce/lib/:/etc/hadoop-2.6.0/share/hadoop/mapreduce/:/etc/hadoop-2.6.0/contrib/capacity-scheduler/.jar{{PWD}}/spark_conf/ _ _ _ _ hadoop_conf SPARK_DIST_CLASSPATH -> /etc/hadoop-2.6.0/etc/hadoop:/etc/hadoop-2.6.0/share/hadoop/common/lib/:/etc/hadoop-2.6.0/share/hadoop/common/ :/etc/hadoop-2.6.0/share/hadoop/hdfs:/etc/hadoop-2.6.0/share/hadoop/hdfs/lib/ : /etc/hadoop-2.6.0/share/hadoop/hdfs/ :/etc/hadoop-2.6.0/share/hadoop/yarn/lib/ :/etc/hadoop-2.6.0/share/hadoop/yarn/ : /etc/hadoop-2.6.0/share/hadoop/mapreduce/lib/ :/etc/hadoop-2.6.0/share/hadoop/mapreduce/ :/etc/hadoop-2.6.0/contrib/capacity-scheduler/。 jar SPARK_YARN_STAGING_DIR -> *********(已编辑)SPARK_USER -> *********(已编辑)SPARK_CONF_DIR -> /etc/spark/conf SPARK_HOME -> /etc/spark

命令:{{JAVA_HOME}}/bin/java\-server\-Xmx1024m\-Djava.io.tmpdir={{PWD}}/tmp\'-Dspark.driver.port=34872'\-Dspark.yarn.app .container.log.dir= \ -XX:OnOutOfMemoryError='kill %p' \ org.apache.spark.executor.CoarseGrainedExecutorBackend \ --driver-url \ spark://CoarseGrainedScheduler@rhel7-cloudera-dev:34872 \ - -executor-id\\--hostname\\--cores\1\--app-id\application_1566921956926_0010\--user-class-path\file:$PWD/app.jar \ 1>/stdout\2>/标准错误

资源: spark_libs -> 资源{方案:“hdfs”主机:“rhel7-cloudera-dev”端口:9000 文件:“/user/rhel/.sparkStaging/application_1566921956926_0010/ spark_libs__5634501618166443611.zip”} 大小:232107209 时间戳:1566933362存档可见性:PRIVATE __spark_conf -> 资源 { 方案:“hdfs”主机:“rhel7-cloudera-dev”端口:9000 文件:“/user/rhel/.sparkStaging/application_1566921956926_0010/ spark_conf .zip”} 大小:208377 时间戳:1566933365411类型:存档可见性:私人

==================================================== ============================== 2019-08-28 00:46:22 信息 RMProxy:98 - 在 /0.0 连接到 ResourceManager .0.0:8030 2019-08-28 00:46:22 INFO YarnRMClient:54 - 注册 ApplicationMaster 2019-08-28 00:46:22 INFO YarnAllocator:54 - 将请求 2 个执行器容器,每个容器有 1 个核心(s) 和 1408 MB 内存(包括 384 MB 开销) 2019-08-28 00:46:22 INFO YarnAllocator:54 - 提交了 2 个未本地化的容器请求。2019-08-28 00:46:22 INFO ApplicationMaster:54 - 以(心跳:3000,初始分配:200)间隔启动进度报告线程 2019-08-28 00:46:22 错误 ApplicationMaster:43 - 收到信号期限 2019 -08-28 00:46:23 INFO ApplicationMaster:54 - 最终应用状态:未定义,退出代码:16,(原因:

容器: rhel7-cloudera-dev_33917 上的 container_1566921956926_0010_02_000001 ========================================== ======================================= LogType:stderr 日志上传时间:28-Aug-2019 00:46:31 LogLength:3576 日志内容:SLF4J:类路径包含多个 SLF4J 绑定。SLF4J:在 [jar:file:/yarn/local/usercache/rhel/filecache/26/__spark_libs__5634501618166443611.zip/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class] 中找到绑定在 [jar:file:/etc/hadoop-2.6.0/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J 中找到绑定:参见http ://www.slf4j.org/codes.html#multiple_bindings解释一下。SLF4J:实际绑定的类型为 [org.slf4j.impl.Log4jLoggerFactory] ​​线程“main”中的异常 java.io.IOException:本地异常失败:java.io.IOException;主机详情:本地主机为:“rhel7-cloudera-dev/192.168.56.112”;目标主机是:“rhel7-cloudera-dev”:9000;在 org.apache.hadoop.net.NetUtils.wrapException(NetUtils.java:772) 在 org.apache.hadoop.ipc.Client.call(Client.java:1474) 在 org.apache.hadoop.ipc.Client.call (Client.java:1401) 在 org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:232) 在 com.sun.proxy.$Proxy9.getFileInfo(Unknown Source) 在 org.apache.hadoop。 hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.getFileInfo(ClientNamenodeProtocolTranslatorPB.java:752) 在 sun.reflect.NativeMethodAccessorImpl。

LogType:stdout 日志上传时间:2019 年 8 月 28 日 00:46:31 LogLength:975 日志内容:2019-08-28 00:46:26 INFO SignalUtils:54 - 为 TERM 2019-08-28 00 注册的信号处理程序: 46:26 INFO SignalUtils:54 - HUP 的注册信号处理程序 2019-08-28 00:46:26 INFO SignalUtils:54 - INT 的注册信号处理程序 2019-08-28 00:46:27 INFO SecurityManager:54 - 更改视图acls 为:yarn,rhel 2019-08-28 00:46:27 INFO SecurityManager:54 - 将修改 acls 更改为:yarn,rhel 2019-08-28 00:46:27 INFO SecurityManager:54 - 将视图 acls 组更改为: 2019-08-28 00:46:27 INFO SecurityManager:54 - 将修改 acls 组更改为:2019-08-28 00:46:27 INFO SecurityManager:54 - SecurityManager:身份验证已禁用;ui acls 禁用;具有查看权限的用户:Set(yarn, rhel); 具有查看权限的组:Set();具有修改权限的用户:Set(yarn, rhel); 具有修改权限的组:Set() 2019-08-28 00:46:28 INFO ApplicationMaster:54 - 准备本地资源 2019-08-28 00:46:28 ERROR ApplicationMaster:43 - RECEIVED SIGNAL TERM

有什么建议可以解决这个问题吗?

0 投票
3 回答
1931 浏览

scala - 通过 spark-shell 以静默模式执行 scala 脚本

需要通过 spark-shell 以静默模式执行 scala 脚本。当我使用时spark-shell -i "file.scala",执行后,我进入了 scala 交互模式。我不想进入那里。

我试图执行 spark-shell -i "file.scala"。但我不知道如何在静默模式下执行脚本。

执行后,我进入

我不想进入scala>模式

更新(2019 年 10 月)终止的脚本

这个问题也是关于运行终止的脚本,即spark-shell -i script.scala > output.txt由您自己停止运行的“scala脚本”(内部指令System.exit(0)终止脚本)。用一个很好的例子来
看看这个问题。

它还需要一个“静音模式”预计不会污染output.txt

假设Spark v2.2+


PS:在很多情况下(通常是小工具和模块/算法测试),Spark 解释器可以比编译器更好......请,“让我们编译吧!” 这里不是答案。

0 投票
3 回答
2295 浏览

shell - 无法通过 shell 脚本运行 spark sql

我无法通过 shell 脚本查询 spark 中的表。但是如果我通过命令行运行,我能够得到结果。当我将这些命令插入 shell 并尝试运行时,就会出现问题。

创建了一个shell脚本:

在 spark shell 命令下插入

火花壳

它正在进入 spark shell 但未运行以下两个命令

val results =sqlContext.sql("SELECT * from table_name ")

results.show()