问题标签 [shark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1585 浏览

hive - 提高 Hive 中的写入性能

我正在对Hive. 计算速度足够快,但我在Hive. 我的结果集接近一千万条记录,将它们写入表需要几分钟。我已经尝试过缓存表和各种文件格式(ORCAND RC),但没有看到任何性能改进。

索引是不可能的,因为我正在使用Shark. 很高兴了解 SO 社区关于我可以尝试提高写入性能的各种方法的建议。

谢谢,TM

0 投票
1 回答
5827 浏览

scala - UDF 在 Spark SQL 中不起作用

我正在尝试计算 Spark SQL 上的 Jaccard 索引。我的表上Hive有以下数据:

表 DDL:

我正在使用UDF来自Brickhouse的。从 开始spark-shell,我可以执行以下命令来创建临时函数。

我还将.jar文件添加到CLASSPATHfor spark-shell(in compute-classpath.sh)。

当我列出函数时,我可以看到我创建的新函数。

接下来,我使用该jaccard_similarity函数计算val数组的 Jaccard 索引。

我收到以下错误:

我查看了Spark来自 GitHub 的源代码。在datatypes.scala中,有以下代码:

我找不到任何关于arraySpark SQL 不支持的参考。如果任何人都可以分享有关如何使其工作的任何指示,那就太好了。

Hive此外,该功能可以在shell 中完美运行。

更新(8 月 5 日):

我只是从 Github 上的 Master 分支构建 Spark。错误消息包含更多信息(例如scala.MatchError: ArrayType(StringType,false),而不是scala.MatchError: ArrayType(StringType)

我还查看了HiveInspectors.scala(第 212 行typeInfoConversions)。那里似乎ArrayType没有定义。

0 投票
1 回答
546 浏览

amazon-ec2 - 为什么在将数据写入 S3 时,在 EC2 上运行的 Shark 会给我一个“错误的 FS”错误

我正在使用提供的设置脚本在 Amazon EC2 上运行 Shark/Spark (0.9.1)。我正在从 S3 中读取数据,然后尝试将表写回 S3。可以很好地从 S3 读取数据(因此我的凭据是正确的),但是当我尝试将数据写入 S3 时,出现以下错误:

14/07/31 16:42:30 INFO scheduler.TaskSetManager:损失是由于 java.lang.IllegalArgumentException:错误的 FS:s3n://id:key@shadoop/tmp/hive-root/hive_2014-07-31_16- 39-29_825_6436105804053790400/_tmp.-ext-10000,预期:hdfs://ecmachine.compute-1.amazonaws.com:9000 [重复 3]

我尝试了几种不同的写出数据/表格的方法,但它们都产生了相同的错误。此特定错误是从 HQL 查询生成的,例如:

关于为什么 S3 被视为“错误的 FS”的任何想法?

0 投票
1 回答
86 浏览

java - 在 hdfs 上运行从 Amplab-shark 到 cassandra 的查询

请帮助在 hdfs 中对 cassandra 进行 Amplab-Shark 查询。

我可以成功运行:

  • 使用数据库
  • 显示表格;
  • 等等

但不能运行任何选择语句,即:

select * from table;

我收到以下错误:

谢谢

0 投票
1 回答
45 浏览

cassandra - Spark 上 Amplab 鲨鱼的蜂巢内部错误

请...需要帮助。

我已按照步骤构建 spark 和 Shark 以从 hdfs/cassandra 查询数据。我在 hdfs 上有一个 cassandra 集群,可以成功查看数据库。但是不能运行select语句

鲨鱼>从calls_flow限制1中选择*;失败:Hive 内部错误:java.lang.RuntimeException(java.lang.ClassNotFoundException:org.apache.hadoop.hive.cassandra.input.cql.HiveCqlInputFormat)

帮助将不胜感激。

谢谢

环境:cassandra 2.0.8、spark-0.9.0、shark-0.9.0

0 投票
1 回答
47 浏览

bigdata - Shark 外表性能

在查询性能方面,从位于本地文件系统上的 Shark 中的外部表进行查询与使用位于 HDFS 上的数据相比如何?我计划使用单个高端服务器来运行鲨鱼查询,并且想知道是否绝对有必要安装 hadoop/hdfs。

0 投票
1 回答
159 浏览

hbase - 带有 HBase 的 Amplab 鲨鱼

什么是通过鲨鱼查询设置对 HBase 表的访问的好方法?我探索了一些旨在使用 Hive 设置 HBase 的文章,例如https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration,但不太确定这如何适用于 Shark。我主要是通过 Shark 从 HBase 中寻找读取的内容。任何帮助表示赞赏,谢谢。

0 投票
1 回答
609 浏览

hadoop - 有人可以解释一下吗:“Spark SQL 支持的用例与 Hive 不同。”

我指的是以下链接:Hive Support for Spark

它说 :

“Spark SQL 支持与 Hive 不同的用例。”

我不确定为什么会这样。这是否意味着作为 Hive 用户我不能通过 Spark SQL 使用 Spark 执行引擎?

一些问题:

  • Spark SQL 使用 Hive 查询解析器。因此,理想情况下,它将支持所有 Hive 功能。
  • 它会使用 Hive Metastore 吗?
  • Hive 会使用 Spark 优化器还是会构建自己的优化器?
  • Hive 会将 MR Jobs 翻译成 Spark 吗?还是使用其他范式?
0 投票
2 回答
711 浏览

java - Datastax DSE Cassandra、Spark、Shark、独立程序

我使用 Datastax Enterprise 4.5。我希望我的配置是正确的,就像在 datastax 网站上解释的那样。我可以使用 Windows 服务写入 Cassandra DB,这可行,但我无法使用 where 函数使用 Spark 进行查询。

我使用“./dse cassandra -k -t”(在 /bin 文件夹中)启动 Cassandra 节点(只有一个用于测试目的),因此 hadoop 和 spark 都在运行。我可以毫无问题地写入 Cassandra。

因此,当“where”不是 RowKey 时,您不能在 Cassandra 查询中使用“where”子句。所以我需要使用 Spark/Shark。我可以使用鲨鱼 (./dse shark) 启动和使用我需要的所有查询,但我需要用 Scala 或 Java 编写独立程序。

所以我尝试了这个链接:https ://github.com/datastax/spark-cassandra-connector

我可以查询一个简单的语句,例如:

这很好用,但如果我要求更多行或计数:

然后我得到这个异常:

当我在 Java 中尝试这个时,我遇到了同样的问题。有谁知道这个问题?我不知道数据库配置是否正确,或者 scala/Javaprogram 是否正常工作。也许某些端口 a 被阻止,但 7077 和 4040 是开放的。

旁注:如果我在 Cassandra DB 上启动 spark,我可以执行以下查询:

但是,如果我使用“where”子句,例如:

我得到这个例外:

你有什么想法吗?我以为我可以在 spark 中使用 where 子句?

谢谢!

0 投票
1 回答
1061 浏览

apache-spark - 如何让 Spark/Shark 在 DSE 4.5.1 上启动

这最初是开箱即用的,然后 AWS 好心地为我关闭了这台服务器。所以我重建了它,并把它变成了新的工作跟踪器(它也是旧的工作跟踪器)。现在我不知道如何让 Spark/Shark 运行。只需键入即可获得dse shark与添加环境变量相同的输出。我不确定缺少什么或在哪里设置哪些变量以使它们起作用。

更新:输出来自dsetool status

更新 2:

这是要求的其他文件:http: //pastie.org/9527227

更新 3: system.log 文件可在此处获得:http: //pastebin.com/TaRYUSf4