问题标签 [spark2]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

9 问题

0 投票

0 回答

635 浏览

scala - 不是版本：Scala 2.11.12 的 9 个异常

Scala 2.11.12 的 Scala 应用程序在执行某些代码集时抛出以下错误

环境配置如下：

然而，相同的配置集在 Eclipse IDE 和 Scala 版本 2.11.11 中运行良好

我可以在同一组环境配置上工作，但Spark 2.4.4带有下划线Scala version is 2.11.12，因此我想在我的应用程序中使用相同的环境配置以避免任何冲突。（因为我的 spark 应用程序未初始化无法初始化 Spark 作业）

此错误的可能根本原因是什么以及如何解决？

2019-09-10T12:22:29.470

0 投票

0 回答

431 浏览

amazon-web-services - 将文件从 AWS S3 复制到 HDFS（Hadoop 分布式文件系统）

我正在尝试使用以下 Scala 代码将 AVRO 文件从 AWS S3 存储桶复制到 HDFS：

将文件复制到 HDFS 时，部分文件会像 (part-0001.avro) 一样保存，如何以与 AWS S3 存储桶中存在的文件名相同的文件名保存文件？

amazon-web-services amazon-s3 hdfs avro spark2

2019-09-16T05:49:14.330

0 投票

1 回答

108 浏览

apache-spark - spark2 sql深度嵌套数组结构与镶木地板

给定一个像这样的深度嵌套的镶木地板结构

考虑到一个赌注有几个方面，不知何故，我们只对边数组中的第一边感兴趣。如何找到partyRole 为 10 的一方的参与方？

在 prestosql 我可以做类似的事情

我该如何在 spark2 sql 中做同样的事情？

在 spark2 sql 中，上面返回一个数组，在嵌套结构上没有进一步修剪的范围？

返回空值。我尝试了一些组合，但结果返回 WrappedArrayElements，它不提供查询嵌套数据的机制。在 prestosql 返回的结果中包含字段名称，因此很容易继续深入研究结构。

有人可以指出 spark2 sql 如何支持这一点吗？如果 spark2 sql 不能，那么 spark 数据帧如何做到这一点？

apache-spark apache-spark-sql parquet trino spark2

2019-11-16T05:50:07.800

0 投票

0 回答

81 浏览

pyspark - 无法从 pyspark 连接 hivellap

我在 jupyterhub 中使用 pyspark 内核，并想从 spark 连接 hivellap 。我能够创建一个火花会话，但是当我尝试从 pyspark_llap import HiveWarehouseSession 执行时，它显示错误 no module found pyspark_llap

我能够在 python 内核中执行相同的命令并成功执行。

请建议从 pyspark 内核中的 pyspark_llap 导入 HiveWarehouseSession 需要什么配置。

pyspark jupyterhub spark2

2020-01-08T11:30:09.450

0 投票

1 回答

75 浏览

pyspark - pyspark 和 python 未作为 HDP 2.6.0.3-8 堆栈的一部分安装

我有一个安装了 2.6.0.3 的 HDP 集群。在未连接到 Ambari 的网关节点之一中，我安装了 hdp 堆栈。通过安装，我安装了 spark2。到目前为止一切都很好。但是当我查看它时，我没有在其中找到任何 python 或 pyspark 包？我必须单独安装它们吗？为什么 pyspark 包没有与 HDP 2.6.0.3-8 堆栈中的 spark2 一起安装？

pyspark hdp spark2

2020-02-25T20:18:56.087

0 投票

0 回答

216 浏览

hive - hive-warehouse-connector_2.11 + 必填字段“client_protocol”未设置

我正在使用带有 cloudera-6.3.2 发行版的 hadoop 集群。我需要从 spark（Java 客户端）读取 hive ACID 表。所以原生火花不读蜂巢酸表。因此计划使用 Hive WareHouse 连接器。但低于例外。甚至也无法读取非酸性表。有什么想法吗？

Java 代码

这是我的 pom.xml

hive cloudera spark2

2020-03-27T16:10:43.577

0 投票

0 回答

40 浏览

pyspark - 在 pyspark 中使用窗口函数时出现错误

我正在尝试运行以下代码

并得到以下错误

你能请任何人帮我解决这个错误吗？

pyspark python-3.7 spark2

2020-04-12T14:27:57.083

0 投票

1 回答

141 浏览

java - 如何使用 JAVA 获取在 spark 2.3 中写入的行数？

我知道我们可以使用使用 count()。但我正在尝试使用 sparkListener 捕获计数。但是我没有为它写一个正确的java代码。我已经尝试按照如何在 Spark 中实现自定义作业侦听器/跟踪器中给出的确切方法？但我无法在 JAVA 中重现它。这是我尝试过的事情。

但它会引发很多与覆盖和名称相关的错误。感谢任何帮助。谢谢。

java apache-spark overriding spark2

2020-06-26T19:11:32.750

0 投票

2 回答

122 浏览

scala - 当RDD行之间没有值时如何用逗号分割它们？

我正在尝试将下面的 RDD 行分成五列

当我执行时，我得到“java.lang.ArrayIndexOutOfBoundsException”，因为最后三个逗号之间没有值。

关于现在如何拆分数据的任何想法？

scala apache-spark spark2

2020-07-28T21:21:20.420

1 2 3 4 5 6 7 8 9 10

问题标签 [spark2]

Reference