问题标签 [apache-spark-1.6]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

111 问题

0 投票

1 回答

805 浏览

scala - 如何加入二进制字段？

在 Scala/Spark 中，我正在尝试执行以下操作：

但是我收到以下错误：

确实这是二进制类型：

原样ports("id")。

我正在使用以下库：

请注意，我使用 JDBC 来读取数据库表。

解决此问题的最佳方法是什么？

2017-06-09T14:23:49.577

0 投票

1 回答

3837 浏览

apache-spark - 线程“主”java.lang.NoClassDefFoundError 中的异常：org/apache/spark/sql/SQLContext

我正在使用 IntelliJ 2016.3 版本。

我一直在运行时异常以下。即使我正确地提到了所有依赖项，如上所示。

在此网络上进行了更多调查。发现这主要是由于条目不合适buld.sbt或版本不匹配。但在我的情况下，一切看起来都很好，如上所示。请建议我在这里做错了什么？

apache-spark apache-spark-sql noclassdeffounderror apache-spark-1.6

2017-06-20T06:10:20.790

0 投票

1 回答

1470 浏览

json - 如何将 Array 的 ElementType 提取为 StructType 的实例

我尝试在 Spark 中分解复杂数据帧的结构。我只对根目录下的嵌套数组感兴趣。问题是我无法从 StructField 类型中检索 ElementType。

这是一个示例，这是 StructType Object 的架构：

每个 StructType 都是一个数组

我尝试了下面的代码：

我想检索 ElementType 以获得嵌套数组的 StructType，但不幸的是我们只有 typeName 或 json 方法。

此致，

json scala spark-dataframe apache-spark-1.6

2017-06-21T10:32:49.983

0 投票

1 回答

4476 浏览

apache-spark - 为什么在 spark-shell 中导入 SparkSession 失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”？

我在我的虚拟机 Cloudera 机器上使用 Spark 1.6.0。

我正在尝试从 Spark shell 向 Hive 表中输入一些数据。为此，我正在尝试使用 SparkSession。但是下面的导入不起作用。

没有它，我无法执行此语句：

谁能告诉我我在这里犯了什么错误？

apache-spark cloudera-cdh apache-spark-1.6

2017-06-27T04:44:30.020

0 投票

1 回答

3427 浏览

apache-spark - 如何优化大数据框上的 spark sql 操作？

我有一个大型配置单元表（约 90 亿条记录和约 45GB 的兽人格式）。我正在使用 spark sql 对表进行一些分析。但是对此进行任何操作需要太多时间。只需对输入数据框本身进行计数就需要大约 11 分钟才能完成。仅任何一列的 min、max 和 avg 都需要超过一个半小时才能完成。

我正在研究一个资源有限的集群（因为它是唯一可用的集群），共有 9 个执行程序，每个执行程序有 2 个核心，每个执行程序有 5GB 内存，分布在 3 个物理节点上。

有什么方法可以优化这一点，比如将同一集群上每列上所有聚合函数的时间缩短到至少 30 分钟以内，或者增加我的资源是唯一的方法？我个人不太热衷于这样做。我遇到的一种加快数据帧操作的解决方案是缓存它们。但在我的情况下，我认为这不是一个可行的选择。

我遇到的所有现实世界场景都使用巨大的集群来处理这种负载。

任何帮助表示赞赏。我在独立模式下使用 spark 1.6.0 和 kryo 序列化程序。

apache-spark apache-spark-sql spark-dataframe apache-spark-1.6 spark-hive

2017-07-10T14:13:33.767

0 投票

1 回答

497 浏览

apache-spark - Apache spark WHERE 子句不起作用

我在一个较小的纱线集群上运行 Apache Spark 1.6.1。我正在尝试使用如下查询从配置单元表中提取数据：

但是，无论我为 loaddate 赋予什么值，生成的数据框都是整个表。我能想到的唯一奇怪的事情是 hive 表是由 loaddate 列分区的。

单独 Hive 似乎可以正确运行此查询。我尝试过转换为整数、使用.filter()和各种级别的引号，但在 Spark 上没有运气。

apache-spark pyspark apache-spark-sql pyspark-sql apache-spark-1.6

2017-07-13T15:52:05.790

0 投票

2 回答

50840 浏览

scala - 如何在 Spark 1.6 的窗口聚合中使用 collect_set 和 collect_list 函数？

在 Spark 1.6.0 / Scala 中，是否有机会获得collect_list("colC")或collect_set("colC").over(Window.partitionBy("colA").orderBy("colB")？

scala apache-spark apache-spark-sql apache-spark-1.6

2017-07-16T17:27:36.747

0 投票

1 回答

887 浏览

apache-spark - 广播'对象没有属性'销毁'？

在我的 pyspark 脚本代码中，我声明了一个广播变量。最后，我想破坏这个变量，但是得到

Blockquote AttributeError：“广播”对象没有属性“销毁”

我的代码是这样的：</p>

我的 spark 版本是 1.6.1，我知道类 BroadCast 有 destroy() 方法，但是为什么代码会抛出这个异常？谢谢。

apache-spark pyspark apache-spark-1.6

2017-07-19T06:06:11.683

0 投票

2 回答

23869 浏览

apache-spark - 如何通过 Spark 属性 (Spark 1.6) 在 spark-shell 中启用或禁用 Hive 支持？

是否有任何配置属性，我们可以将其设置为通过 spark-shell 在 spark 1.6 中显式禁用/启用 Hive 支持。我试图获取所有 sqlContext 配置属性，

但是，我不确定禁用/启用配置单元支持实际上需要哪个属性。或者有没有其他方法可以做到这一点？

apache-spark hive apache-spark-sql apache-spark-1.6

2017-07-20T08:46:49.653

0 投票

0 回答

84 浏览

java - 用于以下 scala 代码的类似 java 代码

我无法在 spark 1.6 的 spark 数据帧上使用 concat_list

这是链接！对于原始帖子，我需要在 java SE 7、apache-spark 1.6 中使用相同的代码。

斯卡拉代码

Java 代码

如果我错了，请纠正我，

谢谢。

java scala java-7 apache-spark-1.6

2017-07-29T05:54:19.050

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark-1.6]

Reference