问题标签 [spark2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 不是版本:Scala 2.11.12 的 9 个异常
Scala 2.11.12 的 Scala 应用程序在执行某些代码集时抛出以下错误
环境配置如下:
然而,相同的配置集在 Eclipse IDE 和 Scala 版本 2.11.11 中运行良好
我可以在同一组环境配置上工作,但Spark 2.4.4
带有下划线Scala version is 2.11.12
,因此我想在我的应用程序中使用相同的环境配置以避免任何冲突。(因为我的 spark 应用程序未初始化无法初始化 Spark 作业)
此错误的可能根本原因是什么以及如何解决?
amazon-web-services - 将文件从 AWS S3 复制到 HDFS(Hadoop 分布式文件系统)
我正在尝试使用以下 Scala 代码将 AVRO 文件从 AWS S3 存储桶复制到 HDFS:
将文件复制到 HDFS 时,部分文件会像 (part-0001.avro) 一样保存,如何以与 AWS S3 存储桶中存在的文件名相同的文件名保存文件?
apache-spark - spark2 sql深度嵌套数组结构与镶木地板
给定一个像这样的深度嵌套的镶木地板结构
考虑到一个赌注有几个方面,不知何故,我们只对边数组中的第一边感兴趣。如何找到partyRole 为 10 的一方的参与方?
在 prestosql 我可以做类似的事情
我该如何在 spark2 sql 中做同样的事情?
在 spark2 sql 中,上面返回一个数组,在嵌套结构上没有进一步修剪的范围?
IE
返回空值。我尝试了一些组合,但结果返回 WrappedArrayElements,它不提供查询嵌套数据的机制。在 prestosql 返回的结果中包含字段名称,因此很容易继续深入研究结构。
有人可以指出 spark2 sql 如何支持这一点吗?如果 spark2 sql 不能,那么 spark 数据帧如何做到这一点?
pyspark - 无法从 pyspark 连接 hivellap
我在 jupyterhub 中使用 pyspark 内核,并想从 spark 连接 hivellap 。我能够创建一个火花会话,但是当我尝试从 pyspark_llap import HiveWarehouseSession 执行时,它显示错误 no module found pyspark_llap
我能够在 python 内核中执行相同的命令并成功执行。
请建议从 pyspark 内核中的 pyspark_llap 导入 HiveWarehouseSession 需要什么配置。
pyspark - pyspark 和 python 未作为 HDP 2.6.0.3-8 堆栈的一部分安装
我有一个安装了 2.6.0.3 的 HDP 集群。在未连接到 Ambari 的网关节点之一中,我安装了 hdp 堆栈。通过安装,我安装了 spark2。到目前为止一切都很好。但是当我查看它时,我没有在其中找到任何 python 或 pyspark 包?我必须单独安装它们吗?为什么 pyspark 包没有与 HDP 2.6.0.3-8 堆栈中的 spark2 一起安装?
hive - hive-warehouse-connector_2.11 + 必填字段“client_protocol”未设置
我正在使用带有 cloudera-6.3.2 发行版的 hadoop 集群。我需要从 spark(Java 客户端)读取 hive ACID 表。所以原生火花不读蜂巢酸表。因此计划使用 Hive WareHouse 连接器。但低于例外。甚至也无法读取非酸性表。有什么想法吗?
Java 代码
这是我的 pom.xml
pyspark - 在 pyspark 中使用窗口函数时出现错误
我正在尝试运行以下代码
并得到以下错误
你能请任何人帮我解决这个错误吗?
java - 如何使用 JAVA 获取在 spark 2.3 中写入的行数?
我知道我们可以使用使用 count()。但我正在尝试使用 sparkListener 捕获计数。但是我没有为它写一个正确的java代码。我已经尝试按照如何在 Spark 中实现自定义作业侦听器/跟踪器中给出的确切方法? 但我无法在 JAVA 中重现它。这是我尝试过的事情。
但它会引发很多与覆盖和名称相关的错误。感谢任何帮助。谢谢。
scala - 当RDD行之间没有值时如何用逗号分割它们?
我正在尝试将下面的 RDD 行分成五列
当我执行时,我得到“java.lang.ArrayIndexOutOfBoundsException”,因为最后三个逗号之间没有值。
关于现在如何拆分数据的任何想法?