问题标签 [apache-spark-1.6]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
805 浏览

scala - 如何加入二进制字段?

在 Scala/Spark 中,我正在尝试执行以下操作:

但是我收到以下错误:

确实这是二进制类型:

原样ports("id")

我正在使用以下库:

请注意,我使用 JDBC 来读取数据库表。

解决此问题的最佳方法是什么?

0 投票
1 回答
3837 浏览

apache-spark - 线程“主”java.lang.NoClassDefFoundError 中的异常:org/apache/spark/sql/SQLContext

我正在使用 IntelliJ 2016.3 版本。

我一直在运行时异常以下。即使我正确地提到了所有依赖项,如上所示。库 - 屏幕截图

在此网络上进行了更多调查。发现这主要是由于条目不合适buld.sbt或版本不匹配。但在我的情况下,一切看起来都很好,如上所示。请建议我在这里做错了什么?

0 投票
1 回答
1470 浏览

json - 如何将 Array 的 ElementType 提取为 StructType 的实例

我尝试在 Spark 中分解复杂数据帧的结构。我只对根目录下的嵌套数组感兴趣。问题是我无法从 StructField 类型中检索 ElementType。

这是一个示例,这是 StructType Object 的架构:

每个 StructType 都是一个数组

我尝试了下面的代码:

我想检索 ElementType 以获得嵌套数组的 StructType,但不幸的是我们只有 typeName 或 json 方法。

此致,

0 投票
1 回答
4476 浏览

apache-spark - 为什么在 spark-shell 中导入 SparkSession 失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”?

我在我的虚拟机 Cloudera 机器上使用 Spark 1.6.0。

我正在尝试从 Spark shell 向 Hive 表中输入一些数据。为此,我正在尝试使用 SparkSession。但是下面的导入不起作用。

没有它,我无法执行此语句:

谁能告诉我我在这里犯了什么错误?

0 投票
1 回答
3427 浏览

apache-spark - 如何优化大数据框上的 spark sql 操作?

我有一个大型配置单元表(约 90 亿条记录和约 45GB 的兽人格式)。我正在使用 spark sql 对表进行一些分析。但是对此进行任何操作需要太多时间。只需对输入数据框本身进行计数就需要大约 11 分钟才能完成。仅任何一列的 min、max 和 avg 都需要超过一个半小时才能完成。

我正在研究一个资源有限的集群(因为它是唯一可用的集群),共有 9 个执行程序,每个执行程序有 2 个核心,每个执行程序有 5GB 内存,分布在 3 个物理节点上。

有什么方法可以优化这一点,比如将同一集群上每列上所有聚合函数的时间缩短到至少 30 分钟以内,或者增加我的资源是唯一的方法?我个人不太热衷于这样做。我遇到的一种加快数据帧操作的解决方案是缓存它们。但在我的情况下,我认为这不是一个可行的选择。

我遇到的所有现实世界场景都使用巨大的集群来处理这种负载。

任何帮助表示赞赏。我在独立模式下使用 spark 1.6.0 和 kryo 序列化程序。

0 投票
1 回答
497 浏览

apache-spark - Apache spark WHERE 子句不起作用

我在一个较小的纱线集群上运行 Apache Spark 1.6.1。我正在尝试使用如下查询从配置单元表中提取数据:

但是,无论我为 loaddate 赋予什么值,生成的数据框都是整个表。我能想到的唯一奇怪的事情是 hive 表是由 loaddate 列分区的。

单独 Hive 似乎可以正确运行此查询。我尝试过转换为整数、使用.filter()和各种级别的引号,但在 Spark 上没有运气。

0 投票
2 回答
50840 浏览

scala - 如何在 Spark 1.6 的窗口聚合中使用 collect_set 和 collect_list 函数?

在 Spark 1.6.0 / Scala 中,是否有机会获得collect_list("colC")collect_set("colC").over(Window.partitionBy("colA").orderBy("colB")

0 投票
1 回答
887 浏览

apache-spark - 广播'对象没有属性'销毁'?

在我的 pyspark 脚本代码中,我声明了一个广播变量。最后,我想破坏这个变量,但是得到

Blockquote AttributeError:“广播”对象没有属性“销毁”

我的代码是这样的:</p>

我的 spark 版本是 1.6.1,我知道类 BroadCast 有 destroy() 方法,但是为什么代码会抛出这个异常?谢谢。

0 投票
2 回答
23869 浏览

apache-spark - 如何通过 Spark 属性 (Spark 1.6) 在 spark-shell 中启用或禁用 Hive 支持?

是否有任何配置属性,我们可以将其设置为通过 spark-shell 在 spark 1.6 中显式禁用/启用 Hive 支持。我试图获取所有 sqlContext 配置属性,

但是,我不确定禁用/启用配置单元支持实际上需要哪个属性。或者有没有其他方法可以做到这一点?

0 投票
0 回答
84 浏览

java - 用于以下 scala 代码的类似 java 代码

我无法在 spark 1.6 的 spark 数据帧上使用 concat_list

这是链接!对于原始帖子,我需要在 java SE 7、apache-spark 1.6 中使用相同的代码。

斯卡拉代码

Java 代码

如果我错了,请纠正我,

谢谢。