“spark-shell”的相关标签问题

0 投票

0 回答

371 浏览

scala - Spark-shell 无法读取 CSV 文件，在本地模式下超时失败

我得到了这个例外。

java.io.IOException：无法连接到 org.apache.spark.network.client.TransportClientFactory 的 org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:232) 的 /192.168.1.112:51351。 createClient(TransportClientFactory.java:182) at org.apache.spark.rpc.netty.NettyRpcEnv.downloadClient(NettyRpcEnv.scala:366) at org.apache.spark.rpc.netty.NettyRpcEnv.openChannel(NettyRpcEnv.scala:332)在 org.apache.spark.util.Utils$.doFetchFile(Utils.scala:654) 在 org.apache.spark.util.Utils$.fetchFile(Utils.scala:480) 在 org.apache.spark.executor.Executor $$anonfun$org$apache$spark$executor$Executor$$updateDependencies$5.apply(Executor.scala:696) at org.apache.spark.executor.Executor$$anonfun$org$apache$spark$executor$Executor$ $updateDependencies$5.apply(Executor.scala:688）在 scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:733) 在 scala.collection.Iterator$class.foreach(Iterator.scala:893) 在 scala.collection.AbstractIterator.foreach (Iterator.scala:1336) 在 scala.collection.IterableLike$class.foreach(IterableLike.scala:72) 在 scala.collection.AbstractIterable.foreach(Iterable.scala:54) 在 scala.collection.TraversableLike$WithFilter.foreach( TraversableLike.scala:732) at org.apache.spark.executor.Executor.org$apache$spark$executor$Executor$$updateDependencies(Executor.scala:688) at org.apache.spark.executor.Executor$TaskRunner.run (Executor.scala:308) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) 在 java.lang.Thread.run(Thread.java:748) 引起：io.netty.channel.AbstractChannel$AnnotatedConnectException：操作超时：/192.168.1.112:51351 在 sun.nio.ch.SocketChannelImpl.checkConnect （本机方法）在 sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717) 在 io.netty.channel.socket.nio.NioSocketChannel.doFinishConnect(NioSocketChannel.java:257) 在 io.netty.channel.nio .AbstractNioChannel$AbstractNioUnsafe.finishConnect(AbstractNioChannel.java:291) 在 io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:631) 在 io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:566) ) 在 io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java: io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:480)442) 在 io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:131) 在 io.netty.util.concurrent.DefaultThreadFactory$DefaultRunnableDecorator.run(DefaultThreadFactory.java:144) ... 还有 1 个

2019-07-09T13:04:15.797

0 投票

1 回答

114 浏览

hadoop-yarn - 纱线和火花外壳作业上的火花作业的资源管理

我们公司在cloudera上有一个9节点的集群。

我们有 41 个长期运行的 spark 流作业 [YARN + 集群模式] 和一些计划在每天下午 1 点运行的常规 spark shell 作业。

当前所有作业都以用户 A 角色提交[具有 root 权限]

我遇到的问题是，当所有 41 个 spark 流作业都在运行时，我的计划作业将无法获得资源来运行。

我已经尝试过 YARN 公平调度程序，但计划的作业仍然没有运行。

我们希望 spark 流作业始终在运行，但它会减少其他计划作业启动时占用的资源。

请随时分享您的建议或可能的解决方案。

hadoop-yarn spark-submit spark-shell

2019-07-16T09:37:05.493

0 投票

1 回答

121 浏览

scala - 当我尝试创建名称为“org”的变量时，为什么会引发 shell 抛出错误？

我尝试在 spark shell(Scala 版本 2.10.5) 中创建名称为“org”的变量/val，但抛出错误

我尝试了 var 和 val。

错误：值 apache 不是 List[Int] org.apache.spark.sql.catalyst.encoders.OuterScopes.addOuterScope(this) 的成员

scala variables spark-shell

2019-07-19T06:50:19.210

0 投票

1 回答

1038 浏览

azure - 将数据作为 Json 从 DataFrame 写入 Azure Blob 存储

我在数据框中有一些数据，我必须将其转换为 json 并将其存储到 Azure Blob 存储中。有什么办法可以做到这一点？以下是我尝试过的步骤。我正在从 spark-shell 尝试它。

在运行写入命令时，我遇到以下错误

在提供 blob 详细信息时，我有什么遗漏吗？下面是我的存储帐户的屏幕截图：

我还没有在这里看到任何类似的问题，它会将数据帧作为 Json 写入 Azure Blob。

azure azure-blob-storage spark-shell

2019-07-24T11:45:30.553

0 投票

0 回答

597 浏览

apache-spark - 纱线上的火花，对等方重置连接

搜索了很多但都是徒劳的，这是 AWS 中的一个 3 节点 EC2 集群，检查了磁盘空间、资源、正在运行的服务，一切似乎都很好，但我得到了这个错误。请帮助解决这个问题。

10.0.1.5 和 10.0.1.6 是数据节点，我只是从 namenode 运行 spark-shell。

编辑了最小的配置，如果需要我也可以在这里发布。

apache-spark hadoop-yarn spark-shell

2019-08-05T11:03:29.963

0 投票

1 回答

87 浏览

scala - spark-shell中的行与列表

Spark Row 和 Scala List 有什么区别，两者都提供了一种按索引访问项目的方法何时使用哪一个

我在 Row 中看到的唯一区别是它有一些模式。

请帮助我理解为什么 Row 出现在图片中。

scala apache-spark spark-shell

2019-08-12T03:00:39.703

0 投票

1 回答

188 浏览

scala - 通过 Spark-Shell 运行时获取分区日志

我在 EMR 集群中使用 Spark-Shell 运行我的代码。示例是：

现在我有类似的代码

问题是我无法获取分区日志。我该如何分析。

版本：

scala apache-spark apache-spark-sql amazon-emr spark-shell

2019-08-12T07:29:32.017

0 投票

0 回答

328 浏览

apache-spark - Spark on Yarn 错误：Yarn 应用程序已经结束！它可能已被杀死或无法启动应用程序主控

开始spark-shell --master yarn --deploy-mode client时出现错误：

纱线应用已经结束！它可能已被杀死或无法启动应用程序主控。

以下是 Yarn 的完整日志：

19/08/28 00:54:55 INFO client.RMProxy: 在 /0.0.0.0:8032 连接到 ResourceManager

容器： rhel7-cloudera-dev_33917 上的 container_1566921956926_0010_01_000001 ========================================== ======================================= LogType:stderr 日志上传时间:28-Aug-2019 00:46:31 LogLength:523 日志内容：SLF4J：类路径包含多个 SLF4J 绑定。SLF4J：在 [jar:file:/yarn/local/usercache/rhel/filecache/26/__spark_libs__5634501618166443611.zip/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class] 中找到绑定在 [jar:file:/etc/hadoop-2.6.0/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J 中找到绑定：参见http ://www.slf4j.org/codes.html#multiple_bindings进行解释。SLF4J：实际绑定的类型为 [org.slf4j.impl.Log4jLoggerFactory]

LogType:stdout 日志上传时间：2019 年 8 月 28 日 00:46:31 LogLength:5597 日志内容：2019-08-28 00:46:19 INFO SignalUtils:54 - 为 TERM 2019-08-28 00 注册的信号处理程序： 46:19 INFO SignalUtils:54 - 为 HUP 注册的信号处理程序 2019-08-28 00:46:19 INFO SignalUtils:54 - 为 INT 注册的信号处理程序 2019-08-28 00:46:19 INFO SecurityManager:54 - 更改视图acls 为：yarn,rhel 2019-08-28 00:46:19 INFO SecurityManager:54 - 将修改 acls 更改为：yarn,rhel 2019-08-28 00:46:19 INFO SecurityManager:54 - 将视图 acls 组更改为： 2019-08-28 00:46:19 INFO SecurityManager:54 - 将修改 acls 组更改为：2019-08-28 00:46:19 INFO SecurityManager:54 - SecurityManager：身份验证已禁用；ui acls 禁用；具有查看权限的用户：Set(yarn, rhel); 具有查看权限的组：Set()；具有修改权限的用户：Set(yarn, rhel); 具有修改权限的组：Set() 2019-08-28 00:46:20 INFO ApplicationMaster:54 - 准备本地资源 2019-08-28 00:46:21 INFO ApplicationMaster:54 - ApplicationAttemptId: appattempt_1566921956926_0010_000001 2019-08-28 00 :46:21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用：rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后（0 毫秒花费在引导程序中）2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文：env: CLASSPATH -> {{PWD}}{{PWD}}/ 瑞尔）；具有修改权限的组：Set() 2019-08-28 00:46:20 INFO ApplicationMaster:54 - 准备本地资源 2019-08-28 00:46:21 INFO ApplicationMaster:54 - ApplicationAttemptId: appattempt_1566921956926_0010_000001 2019-08-28 00 :46:21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用：rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后（0 毫秒花费在引导程序中）2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文：env: CLASSPATH -> {{PWD}}{{PWD}}/ 瑞尔）；具有修改权限的组：Set() 2019-08-28 00:46:20 INFO ApplicationMaster:54 - 准备本地资源 2019-08-28 00:46:21 INFO ApplicationMaster:54 - ApplicationAttemptId: appattempt_1566921956926_0010_000001 2019-08-28 00 :46:21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用：rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后（0 毫秒花费在引导程序中）2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文：env: CLASSPATH -> {{PWD}}{{PWD}}/ Set() 2019-08-28 00:46:20 INFO ApplicationMaster:54 - 准备本地资源 2019-08-28 00:46:21 INFO ApplicationMaster:54 - ApplicationAttemptId: appattempt_1566921956926_0010_000001 2019-08-28 00:46:21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用：rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后（0 毫秒花费在引导程序中）2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文：env: CLASSPATH -> {{PWD}}{{PWD}}/ Set() 2019-08-28 00:46:20 INFO ApplicationMaster:54 - 准备本地资源 2019-08-28 00:46:21 INFO ApplicationMaster:54 - ApplicationAttemptId: appattempt_1566921956926_0010_000001 2019-08-28 00:46:21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用：rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后（0 毫秒花费在引导程序中）2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文：env: CLASSPATH -> {{PWD}}{{PWD}}/ 54 - 准备本地资源 2019-08-28 00:46:21 INFO ApplicationMaster:54 - ApplicationAttemptId: appattempt_1566921956926_0010_000001 2019-08-28 00:46:21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用：rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后（0 毫秒花费在引导程序中）2019-08-28 00:46:22 INFO ApplicationMaster:54 - ================== ==================================================== ========== YARN 执行器启动上下文：env: CLASSPATH -> {{PWD}}{{PWD}}/ 54 - 准备本地资源 2019-08-28 00:46:21 INFO ApplicationMaster:54 - ApplicationAttemptId: appattempt_1566921956926_0010_000001 2019-08-28 00:46:21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用：rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后（0 毫秒花费在引导程序中）2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文：env: CLASSPATH -> {{PWD}}{{PWD}}/ 21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用：rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后（0 毫秒花费在引导程序中）2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文：env: CLASSPATH -> {{PWD}}{{PWD}}/ 21 INFO ApplicationMaster:54 - 等待 Spark 驱动程序可访问。2019-08-28 00:46:21 INFO ApplicationMaster:54 - 驱动程序现在可用：rhel7-cloudera-dev:34872 2019-08-28 00:46:21 INFO TransportClientFactory:267 - 成功创建与 rhel7-cloudera-dev 的连接/192.168.56.112:34872 107 毫秒后（0 毫秒花费在引导程序中）2019-08-28 00:46:22 INFO ApplicationMaster:54 - =================== ==================================================== ========== YARN 执行器启动上下文：env: CLASSPATH -> {{PWD}}{{PWD}}/spark_conf {{PWD}}/ spark_libs / $HADOOP_CONF_DIR$HADOOP_COMMON_HOME/share/hadoop/common/ $HADOOP_COMMON_HOME/share/hadoop/common/lib/ $HADOOP_HDFS_HOME/share/hadoop/hdfs/ $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib / $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/ $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/ $HADOOP_YARN_HOME/share/hadoop/yarn/ $HADOOP_YARN_HOME/share/hadoop/yarn/lib/* $HADOOP_COMMON_HOME/ $HADOOP_COMMON_HOME/lib/ $HADOOP_HDFS_HOME/ $HADOOP_HDFS_HOME/lib/ $HADOOP_MAPRED_HOME/ $HADOOP_MAPRED_HOME/lib/ $HADOOP_YARN_HOME/ $HADOOP_YARN_HOME/lib/ $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/ /etc/hadoop-2.6.0/etc/hadoop:/etc/hadoop-2.6.0/share/hadoop/common/lib/ :/etc/hadoop-2.6.0 /share/hadoop/common/ :/etc/hadoop-2.6.0/share/hadoop/hdfs:/etc/hadoop-2.6.0/share/hadoop/hdfs/lib/ :/etc/hadoop-2.6.0/共享/hadoop/hdfs/:/etc/hadoop-2.6.0/share/hadoop/yarn/lib/:/etc/hadoop-2.6.0/share/hadoop/yarn/:/etc/hadoop-2.6.0/ _ _共享/hadoop/mapreduce/lib/:/etc/hadoop-2.6.0/share/hadoop/mapreduce/:/etc/hadoop-2.6.0/contrib/capacity-scheduler/.jar{{PWD}}/spark_conf/ _ _ _ _ hadoop_conf SPARK_DIST_CLASSPATH -> /etc/hadoop-2.6.0/etc/hadoop:/etc/hadoop-2.6.0/share/hadoop/common/lib/:/etc/hadoop-2.6.0/share/hadoop/common/ :/etc/hadoop-2.6.0/share/hadoop/hdfs:/etc/hadoop-2.6.0/share/hadoop/hdfs/lib/ : /etc/hadoop-2.6.0/share/hadoop/hdfs/ :/etc/hadoop-2.6.0/share/hadoop/yarn/lib/ :/etc/hadoop-2.6.0/share/hadoop/yarn/ : /etc/hadoop-2.6.0/share/hadoop/mapreduce/lib/ :/etc/hadoop-2.6.0/share/hadoop/mapreduce/ :/etc/hadoop-2.6.0/contrib/capacity-scheduler/。 jar SPARK_YARN_STAGING_DIR -> *********（已编辑）SPARK_USER -> *********（已编辑）SPARK_CONF_DIR -> /etc/spark/conf SPARK_HOME -> /etc/spark

命令：{{JAVA_HOME}}/bin/java\-server\-Xmx1024m\-Djava.io.tmpdir={{PWD}}/tmp\'-Dspark.driver.port=34872'\-Dspark.yarn.app .container.log.dir= \ -XX:OnOutOfMemoryError='kill %p' \ org.apache.spark.executor.CoarseGrainedExecutorBackend \ --driver-url \ spark://CoarseGrainedScheduler@rhel7-cloudera-dev:34872 \ - -executor-id\\--hostname\\--cores\1\--app-id\application_1566921956926_0010\--user-class-path\file:$PWD/app.jar \ 1>/stdout\2>/标准错误

资源： spark_libs -> 资源{方案：“hdfs”主机：“rhel7-cloudera-dev”端口：9000 文件：“/user/rhel/.sparkStaging/application_1566921956926_0010/ spark_libs__5634501618166443611.zip”} 大小：232107209 时间戳：1566933362存档可见性：PRIVATE __spark_conf -> 资源 { 方案：“hdfs”主机：“rhel7-cloudera-dev”端口：9000 文件：“/user/rhel/.sparkStaging/application_1566921956926_0010/ spark_conf .zip”} 大小：208377 时间戳：1566933365411类型：存档可见性：私人

==================================================== ============================== 2019-08-28 00:46:22 信息 RMProxy:98 - 在 /0.0 连接到 ResourceManager .0.0:8030 2019-08-28 00:46:22 INFO YarnRMClient:54 - 注册 ApplicationMaster 2019-08-28 00:46:22 INFO YarnAllocator:54 - 将请求 2 个执行器容器，每个容器有 1 个核心(s) 和 1408 MB 内存（包括 384 MB 开销） 2019-08-28 00:46:22 INFO YarnAllocator:54 - 提交了 2 个未本地化的容器请求。2019-08-28 00:46:22 INFO ApplicationMaster:54 - 以（心跳：3000，初始分配：200）间隔启动进度报告线程 2019-08-28 00:46:22 错误 ApplicationMaster：43 - 收到信号期限 2019 -08-28 00:46:23 INFO ApplicationMaster:54 - 最终应用状态：未定义，退出代码：16，（原因：

容器： rhel7-cloudera-dev_33917 上的 container_1566921956926_0010_02_000001 ========================================== ======================================= LogType:stderr 日志上传时间:28-Aug-2019 00:46:31 LogLength:3576 日志内容：SLF4J：类路径包含多个 SLF4J 绑定。SLF4J：在 [jar:file:/yarn/local/usercache/rhel/filecache/26/__spark_libs__5634501618166443611.zip/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class] 中找到绑定在 [jar:file:/etc/hadoop-2.6.0/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J 中找到绑定：参见http ://www.slf4j.org/codes.html#multiple_bindings解释一下。SLF4J：实际绑定的类型为 [org.slf4j.impl.Log4jLoggerFactory] 线程“main”中的异常 java.io.IOException：本地异常失败：java.io.IOException；主机详情：本地主机为：“rhel7-cloudera-dev/192.168.56.112”；目标主机是：“rhel7-cloudera-dev”：9000；在 org.apache.hadoop.net.NetUtils.wrapException(NetUtils.java:772) 在 org.apache.hadoop.ipc.Client.call(Client.java:1474) 在 org.apache.hadoop.ipc.Client.call (Client.java:1401) 在 org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:232) 在 com.sun.proxy.$Proxy9.getFileInfo(Unknown Source) 在 org.apache.hadoop。 hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.getFileInfo(ClientNamenodeProtocolTranslatorPB.java:752) 在 sun.reflect.NativeMethodAccessorImpl。

LogType：stdout 日志上传时间：2019 年 8 月 28 日 00:46:31 LogLength：975 日志内容：2019-08-28 00:46:26 INFO SignalUtils：54 - 为 TERM 2019-08-28 00 注册的信号处理程序： 46:26 INFO SignalUtils:54 - HUP 的注册信号处理程序 2019-08-28 00:46:26 INFO SignalUtils:54 - INT 的注册信号处理程序 2019-08-28 00:46:27 INFO SecurityManager:54 - 更改视图acls 为：yarn,rhel 2019-08-28 00:46:27 INFO SecurityManager:54 - 将修改 acls 更改为：yarn,rhel 2019-08-28 00:46:27 INFO SecurityManager:54 - 将视图 acls 组更改为： 2019-08-28 00:46:27 INFO SecurityManager:54 - 将修改 acls 组更改为：2019-08-28 00:46:27 INFO SecurityManager:54 - SecurityManager：身份验证已禁用；ui acls 禁用；具有查看权限的用户：Set(yarn, rhel); 具有查看权限的组：Set()；具有修改权限的用户：Set(yarn, rhel); 具有修改权限的组：Set() 2019-08-28 00:46:28 INFO ApplicationMaster:54 - 准备本地资源 2019-08-28 00:46:28 ERROR ApplicationMaster:43 - RECEIVED SIGNAL TERM

有什么建议可以解决这个问题吗？

apache-spark hadoop-yarn spark-shell

2019-08-27T19:41:56.043

0 投票

3 回答

1931 浏览

scala - 通过 spark-shell 以静默模式执行 scala 脚本

需要通过 spark-shell 以静默模式执行 scala 脚本。当我使用时spark-shell -i "file.scala"，执行后，我进入了 scala 交互模式。我不想进入那里。

我试图执行 spark-shell -i "file.scala"。但我不知道如何在静默模式下执行脚本。

执行后，我进入

我不想进入scala>模式

更新（2019 年 10 月）终止的脚本

这个问题也是关于运行终止的脚本，即spark-shell -i script.scala > output.txt由您自己停止运行的“scala脚本”（内部指令System.exit(0)终止脚本）。用一个很好的例子来
看看这个问题。

它还需要一个“静音模式”，预计不会污染output.txt。

假设Spark v2.2+。

PS：在很多情况下（通常是小工具和模块/算法测试），Spark 解释器可以比编译器更好......请，“让我们编译吧！” 这里不是答案。

scala apache-spark spark-shell

2019-08-28T07:10:52.023

0 投票

3 回答

2295 浏览

shell - 无法通过 shell 脚本运行 spark sql

我无法通过 shell 脚本查询 spark 中的表。但是如果我通过命令行运行，我能够得到结果。当我将这些命令插入 shell 并尝试运行时，就会出现问题。

创建了一个shell脚本：

在 spark shell 命令下插入

火花壳

它正在进入 spark shell 但未运行以下两个命令

val results =sqlContext.sql("SELECT * from table_name ")

results.show()

shell spark-shell

2019-09-06T03:47:58.593

问题标签 [spark-shell]

更新（2019 年 10 月）终止的脚本

Reference