问题标签 [apache-spark-1.6]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 如何加入二进制字段?
在 Scala/Spark 中,我正在尝试执行以下操作:
但是我收到以下错误:
确实这是二进制类型:
原样ports("id")
。
我正在使用以下库:
请注意,我使用 JDBC 来读取数据库表。
解决此问题的最佳方法是什么?
json - 如何将 Array 的 ElementType 提取为 StructType 的实例
我尝试在 Spark 中分解复杂数据帧的结构。我只对根目录下的嵌套数组感兴趣。问题是我无法从 StructField 类型中检索 ElementType。
这是一个示例,这是 StructType Object 的架构:
每个 StructType 都是一个数组
我尝试了下面的代码:
我想检索 ElementType 以获得嵌套数组的 StructType,但不幸的是我们只有 typeName 或 json 方法。
此致,
apache-spark - 为什么在 spark-shell 中导入 SparkSession 失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”?
我在我的虚拟机 Cloudera 机器上使用 Spark 1.6.0。
我正在尝试从 Spark shell 向 Hive 表中输入一些数据。为此,我正在尝试使用 SparkSession。但是下面的导入不起作用。
没有它,我无法执行此语句:
谁能告诉我我在这里犯了什么错误?
apache-spark - 如何优化大数据框上的 spark sql 操作?
我有一个大型配置单元表(约 90 亿条记录和约 45GB 的兽人格式)。我正在使用 spark sql 对表进行一些分析。但是对此进行任何操作需要太多时间。只需对输入数据框本身进行计数就需要大约 11 分钟才能完成。仅任何一列的 min、max 和 avg 都需要超过一个半小时才能完成。
我正在研究一个资源有限的集群(因为它是唯一可用的集群),共有 9 个执行程序,每个执行程序有 2 个核心,每个执行程序有 5GB 内存,分布在 3 个物理节点上。
有什么方法可以优化这一点,比如将同一集群上每列上所有聚合函数的时间缩短到至少 30 分钟以内,或者增加我的资源是唯一的方法?我个人不太热衷于这样做。我遇到的一种加快数据帧操作的解决方案是缓存它们。但在我的情况下,我认为这不是一个可行的选择。
我遇到的所有现实世界场景都使用巨大的集群来处理这种负载。
任何帮助表示赞赏。我在独立模式下使用 spark 1.6.0 和 kryo 序列化程序。
apache-spark - Apache spark WHERE 子句不起作用
我在一个较小的纱线集群上运行 Apache Spark 1.6.1。我正在尝试使用如下查询从配置单元表中提取数据:
但是,无论我为 loaddate 赋予什么值,生成的数据框都是整个表。我能想到的唯一奇怪的事情是 hive 表是由 loaddate 列分区的。
单独 Hive 似乎可以正确运行此查询。我尝试过转换为整数、使用.filter()
和各种级别的引号,但在 Spark 上没有运气。
scala - 如何在 Spark 1.6 的窗口聚合中使用 collect_set 和 collect_list 函数?
在 Spark 1.6.0 / Scala 中,是否有机会获得collect_list("colC")
或collect_set("colC").over(Window.partitionBy("colA").orderBy("colB")
?
apache-spark - 广播'对象没有属性'销毁'?
在我的 pyspark 脚本代码中,我声明了一个广播变量。最后,我想破坏这个变量,但是得到
Blockquote AttributeError:“广播”对象没有属性“销毁”
我的代码是这样的:</p>
我的 spark 版本是 1.6.1,我知道类 BroadCast 有 destroy() 方法,但是为什么代码会抛出这个异常?谢谢。
apache-spark - 如何通过 Spark 属性 (Spark 1.6) 在 spark-shell 中启用或禁用 Hive 支持?
是否有任何配置属性,我们可以将其设置为通过 spark-shell 在 spark 1.6 中显式禁用/启用 Hive 支持。我试图获取所有 sqlContext 配置属性,
但是,我不确定禁用/启用配置单元支持实际上需要哪个属性。或者有没有其他方法可以做到这一点?
java - 用于以下 scala 代码的类似 java 代码
我无法在 spark 1.6 的 spark 数据帧上使用 concat_list
这是链接!对于原始帖子,我需要在 java SE 7、apache-spark 1.6 中使用相同的代码。
斯卡拉代码
Java 代码
如果我错了,请纠正我,
谢谢。