“shark-sql”的相关标签问题

0 投票

1 回答

1585 浏览

hive - 提高 Hive 中的写入性能

我正在对Hive. 计算速度足够快，但我在Hive. 我的结果集接近一千万条记录，将它们写入表需要几分钟。我已经尝试过缓存表和各种文件格式（ORCAND RC），但没有看到任何性能改进。

索引是不可能的，因为我正在使用Shark. 很高兴了解 SO 社区关于我可以尝试提高写入性能的各种方法的建议。

谢谢，TM

2014-07-25T11:37:09.750

0 投票

1 回答

5827 浏览

scala - UDF 在 Spark SQL 中不起作用

我正在尝试计算 Spark SQL 上的 Jaccard 索引。我的表上Hive有以下数据：

表 DDL：

我正在使用UDF来自Brickhouse的。从开始spark-shell，我可以执行以下命令来创建临时函数。

我还将.jar文件添加到CLASSPATHfor spark-shell(in compute-classpath.sh)。

当我列出函数时，我可以看到我创建的新函数。

接下来，我使用该jaccard_similarity函数计算val数组的 Jaccard 索引。

我收到以下错误：

我查看了Spark来自 GitHub 的源代码。在datatypes.scala中，有以下代码：

我找不到任何关于arraySpark SQL 不支持的参考。如果任何人都可以分享有关如何使其工作的任何指示，那就太好了。

Hive此外，该功能可以在shell 中完美运行。

更新（8 月 5 日）：

我只是从 Github 上的 Master 分支构建 Spark。错误消息包含更多信息（例如scala.MatchError: ArrayType(StringType,false)，而不是scala.MatchError: ArrayType(StringType)）

我还查看了HiveInspectors.scala（第 212 行typeInfoConversions）。那里似乎ArrayType没有定义。

scala hive apache-spark shark-sql

2014-07-31T13:00:21.143

0 投票

1 回答

546 浏览

amazon-ec2 - 为什么在将数据写入 S3 时，在 EC2 上运行的 Shark 会给我一个“错误的 FS”错误

我正在使用提供的设置脚本在 Amazon EC2 上运行 Shark/Spark (0.9.1)。我正在从 S3 中读取数据，然后尝试将表写回 S3。可以很好地从 S3 读取数据（因此我的凭据是正确的），但是当我尝试将数据写入 S3 时，出现以下错误：

14/07/31 16:42:30 INFO scheduler.TaskSetManager：损失是由于 java.lang.IllegalArgumentException：错误的 FS：s3n://id:key@shadoop/tmp/hive-root/hive_2014-07-31_16- 39-29_825_6436105804053790400/_tmp.-ext-10000，预期：hdfs://ecmachine.compute-1.amazonaws.com:9000 [重复 3]

我尝试了几种不同的写出数据/表格的方法，但它们都产生了相同的错误。此特定错误是从 HQL 查询生成的，例如：

关于为什么 S3 被视为“错误的 FS”的任何想法？

amazon-ec2 amazon-s3 hive shark-sql

2014-07-31T18:47:56.603

0 投票

1 回答

86 浏览

java - 在 hdfs 上运行从 Amplab-shark 到 cassandra 的查询

请帮助在 hdfs 中对 cassandra 进行 Amplab-Shark 查询。

我可以成功运行：

使用数据库
显示表格；
等等

但不能运行任何选择语句，即：

select * from table;

我收到以下错误：

谢谢

java hadoop cassandra apache-spark shark-sql

2014-08-04T15:16:40.853

0 投票

1 回答

45 浏览

cassandra - Spark 上 Amplab 鲨鱼的蜂巢内部错误

请...需要帮助。

我已按照步骤构建 spark 和 Shark 以从 hdfs/cassandra 查询数据。我在 hdfs 上有一个 cassandra 集群，可以成功查看数据库。但是不能运行select语句

鲨鱼>从calls_flow限制1中选择*；失败：Hive 内部错误：java.lang.RuntimeException（java.lang.ClassNotFoundException：org.apache.hadoop.hive.cassandra.input.cql.HiveCqlInputFormat）

帮助将不胜感激。

谢谢

环境：cassandra 2.0.8、spark-0.9.0、shark-0.9.0

cassandra apache-spark shark-sql

2014-08-05T23:12:14.303

0 投票

1 回答

47 浏览

bigdata - Shark 外表性能

在查询性能方面，从位于本地文件系统上的 Shark 中的外部表进行查询与使用位于 HDFS 上的数据相比如何？我计划使用单个高端服务器来运行鲨鱼查询，并且想知道是否绝对有必要安装 hadoop/hdfs。

bigdata apache-spark shark-sql

2014-08-12T21:12:54.990

0 投票

1 回答

159 浏览

hbase - 带有 HBase 的 Amplab 鲨鱼

什么是通过鲨鱼查询设置对 HBase 表的访问的好方法？我探索了一些旨在使用 Hive 设置 HBase 的文章，例如https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration，但不太确定这如何适用于 Shark。我主要是通过 Shark 从 HBase 中寻找读取的内容。任何帮助表示赞赏，谢谢。

hbase bigdata shark-sql

2014-08-26T00:07:17.540

0 投票

1 回答

609 浏览

hadoop - 有人可以解释一下吗：“Spark SQL 支持的用例与 Hive 不同。”

我指的是以下链接：Hive Support for Spark

它说：

“Spark SQL 支持与 Hive 不同的用例。”

我不确定为什么会这样。这是否意味着作为 Hive 用户我不能通过 Spark SQL 使用 Spark 执行引擎？

一些问题：

Spark SQL 使用 Hive 查询解析器。因此，理想情况下，它将支持所有 Hive 功能。
它会使用 Hive Metastore 吗？
Hive 会使用 Spark 优化器还是会构建自己的优化器？
Hive 会将 MR Jobs 翻译成 Spark 吗？还是使用其他范式？

hadoop hive apache-spark shark-sql

2014-08-27T18:35:13.700

0 投票

2 回答

711 浏览

java - Datastax DSE Cassandra、Spark、Shark、独立程序

我使用 Datastax Enterprise 4.5。我希望我的配置是正确的，就像在 datastax 网站上解释的那样。我可以使用 Windows 服务写入 Cassandra DB，这可行，但我无法使用 where 函数使用 Spark 进行查询。

我使用“./dse cassandra -k -t”（在 /bin 文件夹中）启动 Cassandra 节点（只有一个用于测试目的），因此 hadoop 和 spark 都在运行。我可以毫无问题地写入 Cassandra。

因此，当“where”不是 RowKey 时，您不能在 Cassandra 查询中使用“where”子句。所以我需要使用 Spark/Shark。我可以使用鲨鱼 (./dse shark) 启动和使用我需要的所有查询，但我需要用 Scala 或 Java 编写独立程序。

所以我尝试了这个链接：https ://github.com/datastax/spark-cassandra-connector

我可以查询一个简单的语句，例如：

这很好用，但如果我要求更多行或计数：

然后我得到这个异常：

当我在 Java 中尝试这个时，我遇到了同样的问题。有谁知道这个问题？我不知道数据库配置是否正确，或者 scala/Javaprogram 是否正常工作。也许某些端口 a 被阻止，但 7077 和 4040 是开放的。

旁注：如果我在 Cassandra DB 上启动 spark，我可以执行以下查询：

但是，如果我使用“where”子句，例如：

我得到这个例外：

你有什么想法吗？我以为我可以在 spark 中使用 where 子句？

谢谢！

java scala cassandra apache-spark shark-sql

2014-09-01T15:47:51.930

0 投票

1 回答

1061 浏览

apache-spark - 如何让 Spark/Shark 在 DSE 4.5.1 上启动

这最初是开箱即用的，然后 AWS 好心地为我关闭了这台服务器。所以我重建了它，并把它变成了新的工作跟踪器（它也是旧的工作跟踪器）。现在我不知道如何让 Spark/Shark 运行。只需键入即可获得dse shark与添加环境变量相同的输出。我不确定缺少什么或在哪里设置哪些变量以使它们起作用。

更新：输出来自dsetool status：

更新 2：

这是要求的其他文件：http: //pastie.org/9527227

更新 3： system.log 文件可在此处获得：http: //pastebin.com/TaRYUSf4

apache-spark datastax-enterprise shark-sql

2014-09-04T14:42:22.083

问题标签 [shark-sql]

Reference