问题标签 [apache-spark-1.6]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Spark - 将 RDD[Vector] 转换为具有可变列的 DataFrame
使用scala / spark 1.6概括从RDD [Vector]到DataFrame的转换的最佳解决方案是什么。输入是不同的 RDD[Vector]。对于不同的 RDD,Vector 中的列数可以从 1 到 n。
我尝试使用无形库,它们需要声明的列号和类型。ES:
谢谢!
apache-spark-sql - 加入两个数据帧时,CassandraSourceRelation 不可序列化
我有一个带有 spark-cassandra-connector 1.6.2 的数据框设置。我尝试用 cassandra 进行一些转换。Datastax 企业版是 5.0.5。
这是异常日志,看起来spark正在创建cassandra源代码,并且无法序列化。
是否可以使其序列化?为什么计数操作有效但收集操作无效?
更新:
回到它之后,事实证明,在 Java 中,您首先将 Java Iterable 转换为 scala 缓冲区并从中创建一个 scala Iterable -> Seq。否则它不起作用。感谢 Russel 让我注意到问题的原因。
python - 从 pyspark 数据框列创建列表时,flatMap 不保留顺序
我有一个 PySpark 数据框 df:
我最终想根据 ceil_temp 列的索引向这个数据框添加一个新列(最终),其值是 test2 列中的列表元素。例如:如果 ceil_temp 列中的值 <0 或 0,则最终列的元素位于 test2 列的第 0 个索引中。类似这样的内容:
为此,我尝试使用 flatMap 将 ceil_temp 和 test2 提取为列表:
然后将此列表 l 转换为新的 df 并将其与基于我基于窗口函数添加的行索引列的原始数据框连接起来:
但是,flatMap 提取的列表的顺序似乎与父数据框 df 的顺序不同。我得到以下信息:
预期结果:
请告知如何实现“最终”列。
java - 线程“主”java.lang.NoClassDefFoundError 中的异常:org/apache/spark/internal/Logging
我的 Spark 消费者因“记录”错误而失败。我在浏览时发现错误是由于 jar 不兼容造成的。我使用的是 Spark 1.6.3,所有依赖项都在 pom 中使用,xml 是 1.6.3。我仍然遇到同样的错误。下面是我的 Maven 结构和执行时抛出的错误。
我的 pom.xml :
hive - 使用 SparkSQL 读取 Impala 表
我试图执行一个查询,该查询具有诸如lead .. over .. partition 和 Union 之类的功能。当我尝试在 impala 上运行它但在 Hive 上失败时,此查询运行良好。
我需要编写一个执行此查询的 Spark 作业。它在 SparkSQL 中也失败了,我的假设是因为 Spark 1.6 在内部使用 HiveQL 来完成上述任务。
从 SparkSQL 读取 impala 表有什么不同的方法吗?因为在 Hive 中工作的基本查询和两者都可以在 SprkSQL 上正常工作。
FYR 我要运行的查询:
和错误信息:
scala - spark scala - 将多行合并为一
我有一个数据框
我有这样的输出
我希望预期的 o/p 为:
请帮忙
java - 线程“主”java.lang.NoClassDefFoundError 中的异常:org/ejml/simple/SimpleBase
它似乎缺少 Java 库Efficient Java Matrix Library (ejml),所以我已经从这里的来源下载了。我正在创建 Maven Jar 可执行文件并在 Openstack EDP Spark 环境中运行。
我无法弄清楚如何解决这个问题java.lang.NoClassDefFoundError: org/ejml/simple/SimpleBase
我还尝试了 ejml 版本 0.23、0.25、0.27、0.30、0.31。
apache-spark - 无法在纱线集群模式下运行 Spark
我正在尝试在集群部署模式下使用 YARN 运行 spark 作业。我尝试仅使用 jar 路径、类参数和 master yarn-cluster 运行最简单的 spark-submit 命令。但是我仍然有同样的错误,实际上什么也没告诉我。
如果有人遇到类似问题,请告诉我,我使用的是 spark 1.6,hadoop 2.6。
scala - HashMap UserDefinedType 在实现 UDAF 时在 Spark 1.6.2 中给出强制转换异常
我正在尝试使用自定义 HashMap 实现作为 UserDefinedType 而不是 Spark 中的 MapType。该代码在 spark 1.5.2 中运行良好,但java.lang.ClassCastException: scala.collection.immutable.HashMap$HashMap1 cannot be cast to org.apache.spark.sql.catalyst.util.MapData
在 spark 1.6.2 中出现异常
编码 :-
运行 UDAF 的包装类:-
当我在 spark 1.6.2 中运行上述代码时,出现以下异常:-
我发现 HashMap 实现比可用的 spark MapType 实现快得多。是否可以进行任何更改以在 spark 1.6.2 中运行代码,或者是否有任何可能的替代方案?
hive - SparkSQL JDBC 编写器因“无法获取锁错误”而失败
我正在尝试使用 SparkSQL JDBC Writer 将 hive 表中的 5000 万行插入到 SQLServer 表中。下面是我用来插入数据的代码行
mdf1.coalesce(4).write.mode(SaveMode.Append).jdbc(connectionString, "dbo.TEST_TABLE", connectionProperties)
处理 1000 万行并出现以下错误后,火花作业失败
java.sql.BatchUpdateException:SQL Server 数据库引擎的实例此时无法获取 LOCK 资源。当活动用户较少时重新运行您的语句。要求数据库管理员检查此实例的锁和内存配置,或检查长时间运行的事务。
但是如果我使用下面的代码行,同样的工作也会成功。
mdf1.coalesce(1).write.mode(SaveMode.Append).jdbc(connectionString, "dbo.TEST_TABLE", connectionProperties)
我正在尝试打开 4 个与 SQLServer 的并行连接以优化性能。但是在处理了 1000 万行之后,该作业不断失败,并出现“无法获取锁错误”。此外,如果我将数据帧限制为几百万行(少于 1000 万行),即使有四个并行连接,作业也会成功
任何人都可以建议我是否可以使用 SparkSQL 将大量数据导出到 RDBMS 中,以及我是否需要对 SQL 服务器表进行任何配置更改。
提前致谢。