问题标签 [apache-spark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 Apache Spark 和 Java 将 CSV 解析为 DataFrame/DataSet
我是 spark 新手,我想使用 group-by 和 reduce 从 CSV 中找到以下内容(一行):
我想简化关于按部门、名称、状态分组的关于 CSV的附加列,其中包含sum(costToCompany)和TotalEmployeeCount
应该得到如下结果:
有没有办法使用转换和操作来实现这一点。还是我们应该进行 RDD 操作?
sql - Spark SQL count() 返回错误的数字
我是 Apache Spark 和 Scala 的新手(通常也是 Hadoop 的初学者)。我完成了 Spark SQL 教程:https ://spark.apache.org/docs/latest/sql-programming-guide.html 我尝试对标准 csv 文件执行简单查询,以在当前集群上对其性能进行基准测试。
我使用来自https://s3.amazonaws.com/hw-sandbox/tutorial1/NYSE-2000-2001.tsv.gz的数据,将其转换为 csv 并复制/粘贴数据以使其大 10 倍。
我使用 Scala 将它加载到 Spark 中:
定义类:
读入数据:
转换为表格:
定义查询(列出所有以“IBM”为股票代码的行):
执行计数以便查询实际运行:
查询运行良好,但返回 res: 0 而不是 5000(这是使用 Hive 和 MapReduce 返回的结果)。
scala - 为什么 Scala 的 Symbol 不被接受为列引用?
尝试 Spark SQL 的示例,它们似乎运行良好,除非需要表达式:
看来我需要一个没有记录的导入。
如果我批量导入所有内容
编辑:...和
有用。
apache-spark - 为什么在 DStreams 上运行 SparkSQL 会为 org.apache.spark.rdd.ShuffledRDDPartition 提供 ClassCastException?
在 DStream 中的每个 RDD 上运行 SparkSQL 时出现 ClassCastException。
apache-spark - 如何在 Spark SQL 中查询 Avro 表
我在 Hive 0.13 中有键/值表(键和值是 avro 类型)。当我尝试在 Spark SQL 1.1 中运行查询时,出现以下错误(在 Hive 中有效)
apache-spark-sql - 运行 Spark shell 时出现 java.lang.stackoverflowerror
我根据 spark sql 编程指南中的文档测试了示例,但java.lang.stackoverflowerror
每次调用时都会发生sqlContext.sql("...")
。
同时,它在hiveContext
. Hadoop 版本是 2.2.0,Spark 版本是 1.1.0,用 Yarn、Hive 构建。如果有人能帮帮我,我将不胜感激。
java.lang.StackOverflowError at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1 .apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1 .apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3 .apply(Parsers.scala:222) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$ anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply( Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply( Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$$anon$3.apply( Parsers.scala:222) 在 scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 处的组合器.Parsers$$anon$3.apply(Parsers.scala:222)。 combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) 在 scala.util.parsing。 combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 处的组合器.Parsers$$anon$3.apply(Parsers.scala:222)。 combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) 在 scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) 在 scala.util.parsing。 combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)
apache-spark - spark sql 中 Hadoop 的映射连接等价物
我在 Spark 中寻找 Hadoop 的 mapjoin 等价物,我可以找到这个spark.sql.autoBroadcastJoinThreshold
- spark SQL 可以正常工作吗?我试过了,但它似乎没有效果,因为即使我应用了参数,随机读取/写入也是一样的。
我设置了这个值并运行了我的查询sqlContext.sql("SET spark.sql.autoBroadcastJoinThreshold=100000000;")
- SPARK-SQL 中还有其他等效概念吗?
谢谢 ..
scala - 如何将 RDD[String] 与 Array[String] 连接以生成字符串?
如何将RDD[String]
和转换Array[String]
为字符串?
我收到以下错误,
这个想法是从 SchemaRDD 中的列中获取不同的日期,并将日期与常量字符串连接为/home/tmp/date=
. 所以我应该连接两者,输出应该是
将键入路径sc.textFiles(path)
以读取整个数据集。
在这一步,读取数据时出现转换错误。
apache-spark - 如何从 RDD 中保存的文本文件创建 Shark 查询?
我有一个JavaPairRDD<String, String> results
,我通过调用保存它:
然后我得到如下文件内容:
现在,我想使用 Shark 创建一个包含三个字段的表,例如:
我怎样才能做到这一点?
odbc - Spark 新手 (ODBC/SparkSQL)
我有一个 spark 集群设置,并在我的数据集上尝试了原生 scala 和 spark sql,并且该设置似乎在大多数情况下都有效。我有以下问题
从 ODBC/外部连接到集群,我应该期待什么?- 管理员/开发人员塑造数据并保留/缓存一些将被公开的 RDD?(考虑配置单元表的行) - 连接到 spark/spark sql 中的“配置单元元存储”的等价物是什么?
沿着蜂巢的思路思考是错误的吗?
我的另一个问题是——当我发出 hive 查询时(比如创建表等),它使用与 hadoop/hive 相同的 hive 元存储——当我使用 sqlcontext 发出 sql 查询时,表在哪里创建?- 如果我持久化表,它与持久化 RDD 的概念相同吗?
欣赏你的回答
尼西亚