问题标签 [apache-spark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
70778 浏览

java - 使用 Apache Spark 和 Java 将 CSV 解析为 DataFrame/DataSet

我是 spark 新手,我想使用 group-by 和 reduce 从 CSV 中找到以下内容(一行):

我想简化关于按部门、名称、状态分组的关于 CSV的附加列,其中包含sum(costToCompany)TotalEmployeeCount

应该得到如下结果:

有没有办法使用转换和操作来实现这一点。还是我们应该进行 RDD 操作?

0 投票
1 回答
6110 浏览

sql - Spark SQL count() 返回错误的数字

我是 Apache Spark 和 Scala 的新手(通常也是 Hadoop 的初学者)。我完成了 Spark SQL 教程:https ://spark.apache.org/docs/latest/sql-programming-guide.html 我尝试对标准 csv 文件执行简单查询,以在当前集群上对其性能进行基准测试。

我使用来自https://s3.amazonaws.com/hw-sandbox/tutorial1/NYSE-2000-2001.tsv.gz的数据,将其转换为 csv 并复制/粘贴数据以使其大 10 倍。

我使用 Scala 将它加载到 Spark 中:

定义类:

读入数据:

转换为表格:

定义查询(列出所有以“IBM”为股票代码的行):

执行计数以便查询实际运行:

查询运行良好,但返回 res: 0 而不是 5000(这是使用 Hive 和 MapReduce 返回的结果)。

0 投票
2 回答
3864 浏览

scala - 为什么 Scala 的 Symbol 不被接受为列引用?

尝试 Spark SQL 的示例,它们似乎运行良好,除非需要表达式:

看来我需要一个没有记录的导入。

如果我批量导入所有内容

编辑:...和

有用。

0 投票
0 回答
634 浏览

apache-spark - 为什么在 DStreams 上运行 SparkSQL 会为 org.apache.spark.rdd.ShuffledRDDPartition 提供 ClassCastException?

在 DStream 中的每个 RDD 上运行 SparkSQL 时出现 ClassCastException。

0 投票
1 回答
804 浏览

apache-spark - 如何在 Spark SQL 中查询 Avro 表

我在 Hive 0.13 中有键/值表(键和值是 avro 类型)。当我尝试在 Spark SQL 1.1 中运行查询时,出现以下错误(在 Hive 中有效)

0 投票
0 回答
706 浏览

apache-spark-sql - 运行 Spark shell 时出现 java.lang.stackoverflowerror

我根据 spark sql 编程指南中的文档测试了示例,但java.lang.stackoverflowerror每次调用时都会发生sqlContext.sql("...")

同时,它在hiveContext. Hadoop 版本是 2.2.0,Spark 版本是 1.1.0,用 Yarn、Hive 构建。如果有人能帮帮我,我将不胜感激。

java.lang.StackOverflowError at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1 .apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1 .apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3 .apply(Parsers.scala:222) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$ anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply( Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply( Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$$anon$3.apply( Parsers.scala:222) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 处的组合器.Parsers$$anon$3.apply(Parsers.scala:222)。 combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) 在 scala.util.parsing。 combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 处的组合器.Parsers$$anon$3.apply(Parsers.scala:222)。 combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) 在 scala.util.parsing。 combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)

0 投票
1 回答
1189 浏览

apache-spark - spark sql 中 Hadoop 的映射连接等价物

我在 Spark 中寻找 Hadoop 的 mapjoin 等价物,我可以找到这个spark.sql.autoBroadcastJoinThreshold

  1. spark SQL 可以正常工作吗?我试过了,但它似乎没有效果,因为即使我应用了参数,随机读取/写入也是一样的。

我设置了这个值并运行了我的查询sqlContext.sql("SET spark.sql.autoBroadcastJoinThreshold=100000000;")

  1. SPARK-SQL 中还有其他等效概念吗?

谢谢 ..

0 投票
1 回答
9759 浏览

scala - 如何将 RDD[String] 与 Array[String] 连接以生成字符串?

如何将RDD[String]和转换Array[String]为字符串?

我收到以下错误,

这个想法是从 SchemaRDD 中的列中获取不同的日期,并将日期与常量字符串连接为/home/tmp/date=. 所以我应该连接两者,输出应该是

将键入路径sc.textFiles(path)以读取整个数据集。

在这一步,读取数据时出现转换错误。

0 投票
1 回答
88 浏览

apache-spark - 如何从 RDD 中保存的文本文件创建 Shark 查询?

我有一个JavaPairRDD<String, String> results,我通过调用保存它:

然后我得到如下文件内容:

现在,我想使用 Shark 创建一个包含三个字段的表,例如:

我怎样才能做到这一点?

0 投票
1 回答
2002 浏览

odbc - Spark 新手 (ODBC/SparkSQL)

我有一个 spark 集群设置,并在我的数据集上尝试了原生 scala 和 spark sql,并且该设置似乎在大多数情况下都有效。我有以下问题

从 ODBC/外部连接到集群,我应该期待什么?- 管理员/开发人员塑造数据并保留/缓存一些将被公开的 RDD?(考虑配置单元表的行) - 连接到 spark/spark sql 中的“配置单元元存储”的等价物是什么?

沿着蜂巢的思路思考是错误的吗?

我的另一个问题是——当我发出 hive 查询时(比如创建表等),它使用与 hadoop/hive 相同的 hive 元存储——当我使用 sqlcontext 发出 sql 查询时,表在哪里创建?- 如果我持久化表,它与持久化 RDD 的概念相同吗?

欣赏你的回答

尼西亚