“apache-spark-sql”的相关标签问题

0 投票

4 回答

70778 浏览

java - 使用 Apache Spark 和 Java 将 CSV 解析为 DataFrame/DataSet

我是 spark 新手，我想使用 group-by 和 reduce 从 CSV 中找到以下内容（一行）：

我想简化关于按部门、名称、状态分组的关于 CSV的附加列，其中包含sum(costToCompany)和TotalEmployeeCount

应该得到如下结果：

有没有办法使用转换和操作来实现这一点。还是我们应该进行 RDD 操作？

2014-08-18T12:07:52.440

0 投票

1 回答

6110 浏览

sql - Spark SQL count() 返回错误的数字

我是 Apache Spark 和 Scala 的新手（通常也是 Hadoop 的初学者）。我完成了 Spark SQL 教程：https ://spark.apache.org/docs/latest/sql-programming-guide.html 我尝试对标准 csv 文件执行简单查询，以在当前集群上对其性能进行基准测试。

我使用来自https://s3.amazonaws.com/hw-sandbox/tutorial1/NYSE-2000-2001.tsv.gz的数据，将其转换为 csv 并复制/粘贴数据以使其大 10 倍。

我使用 Scala 将它加载到 Spark 中：

定义类：

读入数据：

转换为表格：

定义查询（列出所有以“IBM”为股票代码的行）：

执行计数以便查询实际运行：

查询运行良好，但返回 res: 0 而不是 5000（这是使用 Hive 和 MapReduce 返回的结果）。

sql scala apache-spark apache-spark-sql

2014-09-08T15:27:45.540

0 投票

2 回答

3864 浏览

scala - 为什么 Scala 的 Symbol 不被接受为列引用？

尝试 Spark SQL 的示例，它们似乎运行良好，除非需要表达式：

看来我需要一个没有记录的导入。

如果我批量导入所有内容

编辑：...和

有用。

scala apache-spark-sql

2014-09-09T13:03:47.023

0 投票

0 回答

634 浏览

apache-spark - 为什么在 DStreams 上运行 SparkSQL 会为 org.apache.spark.rdd.ShuffledRDDPartition 提供 ClassCastException？

在 DStream 中的每个 RDD 上运行 SparkSQL 时出现 ClassCastException。

apache-spark spark-streaming rdd apache-spark-sql

2014-09-13T05:10:32.033

0 投票

1 回答

804 浏览

apache-spark - 如何在 Spark SQL 中查询 Avro 表

我在 Hive 0.13 中有键/值表（键和值是 avro 类型）。当我尝试在 Spark SQL 1.1 中运行查询时，出现以下错误（在 Hive 中有效）

apache-spark hiveql apache-spark-sql

2014-09-16T07:27:30.430

0 投票

0 回答

706 浏览

apache-spark-sql - 运行 Spark shell 时出现 java.lang.stackoverflowerror

我根据 spark sql 编程指南中的文档测试了示例，但java.lang.stackoverflowerror每次调用时都会发生sqlContext.sql("...")。

同时，它在hiveContext. Hadoop 版本是 2.2.0，Spark 版本是 1.1.0，用 Yarn、Hive 构建。如果有人能帮帮我，我将不胜感激。

java.lang.StackOverflowError at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1 .apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1 .apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3 .apply(Parsers.scala:222) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$ anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply( Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply( Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$$anon$3.apply( Parsers.scala:222) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 处的组合器.Parsers$$anon$3.apply(Parsers.scala:222)。 combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) 在 scala.util.parsing。 combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 处的组合器.Parsers$$anon$3.apply(Parsers.scala:222)。 combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) 在 scala.util.parsing。 combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)

apache-spark-sql

2014-09-17T09:04:09.543

0 投票

1 回答

1189 浏览

apache-spark - spark sql 中 Hadoop 的映射连接等价物

我在 Spark 中寻找 Hadoop 的 mapjoin 等价物，我可以找到这个spark.sql.autoBroadcastJoinThreshold

spark SQL 可以正常工作吗？我试过了，但它似乎没有效果，因为即使我应用了参数，随机读取/写入也是一样的。

我设置了这个值并运行了我的查询sqlContext.sql("SET spark.sql.autoBroadcastJoinThreshold=100000000;")

SPARK-SQL 中还有其他等效概念吗？

谢谢 ..

apache-spark apache-spark-sql

2014-09-24T18:25:23.713

0 投票

1 回答

9759 浏览

scala - 如何将 RDD[String] 与 Array[String] 连接以生成字符串？

如何将RDD[String]和转换Array[String]为字符串？

我收到以下错误，

这个想法是从 SchemaRDD 中的列中获取不同的日期，并将日期与常量字符串连接为/home/tmp/date=. 所以我应该连接两者，输出应该是

将键入路径sc.textFiles(path)以读取整个数据集。

在这一步，读取数据时出现转换错误。

scala apache-spark apache-spark-sql

2014-09-26T10:51:10.417

0 投票

1 回答

88 浏览

apache-spark - 如何从 RDD 中保存的文本文件创建 Shark 查询？

我有一个JavaPairRDD<String, String> results，我通过调用保存它：

然后我得到如下文件内容：

现在，我想使用 Shark 创建一个包含三个字段的表，例如：

我怎样才能做到这一点？

apache-spark shark-sql apache-spark-sql

2014-09-28T15:26:29.957

0 投票

1 回答

2002 浏览

odbc - Spark 新手 (ODBC/SparkSQL)

我有一个 spark 集群设置，并在我的数据集上尝试了原生 scala 和 spark sql，并且该设置似乎在大多数情况下都有效。我有以下问题

从 ODBC/外部连接到集群，我应该期待什么？- 管理员/开发人员塑造数据并保留/缓存一些将被公开的 RDD？（考虑配置单元表的行） - 连接到 spark/spark sql 中的“配置单元元存储”的等价物是什么？

沿着蜂巢的思路思考是错误的吗？

我的另一个问题是——当我发出 hive 查询时（比如创建表等），它使用与 hadoop/hive 相同的 hive 元存储——当我使用 sqlcontext 发出 sql 查询时，表在哪里创建？- 如果我持久化表，它与持久化 RDD 的概念相同吗？

欣赏你的回答

尼西亚

odbc apache-spark apache-spark-sql

2014-10-03T17:02:51.383

问题标签 [apache-spark-sql]

Reference