问题标签 [shark-sql]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

59 问题

0 投票

1 回答

607 浏览

mysql - 在 Mac OSX 上使用 Apache SHARK 运行查询

我在 Mac OSX 10.8 上本地运行 Shark 查询时遇到问题。我正在尝试对存储在 Hive 中的数据运行一些测试查询。我正在使用 Scala 2.9.3 和 Hive 0.9.0，两者似乎都运行良好。Hive 数据库使用 MySQL 来存储元数据。

我可以很好地启动 Shark。我可以在 Shark 控制台中看到我在 Hive 中的所有数据库。我可以切换到所需的数据库。但是当我尝试查询数据时，我得到了错误。

简单的查询如下所示：

错误如下所示：

2014-02-03T19:07:07.290

0 投票

1 回答

279 浏览

apache-spark - 如何将 sbt Shark API (sql2rdd) 插入 Spark 交互式 Shell

作为一个 linux 菜鸟，我最近设置了 spark 和 Shark 来玩。我想使用一个 API sql2rdd 将数据从鲨鱼拉到 rdd。但是，我不知道 sql2rdd 库在哪里以及如何与 Spark Interactive Shell 链接。我在网上某处读到，Shark API 需要在没有任何说明的情况下进入 Spark 目录。如果有人知道，请指教。提前致谢。

apache-spark shark-sql

2014-02-03T23:08:02.243

0 投票

2 回答

772 浏览

scala - 使用 hadoop 2.2.0 运行 Shark-0.9.0 时出现 IncompatibleClassChangeError

运行鲨鱼 0.9.0 时出现以下错误。

线程“主”java.lang.IncompatibleClassChangeError 中的异常：找到类 scala.collection.mutable.ArrayOps，但在 Shark.SharkCliDriver$.main(SharkCliDriver.scala:82) 处的接口应为 Shark.SharkCliDriver.main(SharkCliDriver.scala )

关于这个问题的任何解决方案都是非常可观的。

scala shark-sql

2014-02-18T12:58:34.597

0 投票

1 回答

229 浏览

hadoop - Apache Spark 上的 AMPLab Shark

根据文档，

“Apache Spark 是用于大规模数据处理的快速通用引擎。”

“Shark 是用于 Hadoop 数据的开源分布式 SQL 查询引擎。”

Shark 使用 Spark 作为依赖项。

我的问题是，如果我们使用 Shark 对分析查询进行快速响应，Spark 是否只是将 HiveQL 解析为 Spark 作业，或者有什么好处？

hadoop hive apache-spark shark-sql

2014-02-27T17:55:22.223

0 投票

1 回答

121 浏览

cassandra - 整合 cassandra 和鲨鱼

我试图让鲨鱼在 Cassandra 上工作，所以我将数据从 Cassandra 拉到鲨鱼中并运行查询。我使用了 CASH 开源存储处理程序，当我在本地运行 Shark 时它似乎可以工作，但是在分发模式下看起来像 spark 从站不会将输出发送回主站（我在 Shark shell 上看不到输出）。

cassandra hive apache-spark shark-sql

2014-03-01T07:18:14.603

0 投票

1 回答

973 浏览

hadoop - 安装 Spark 集群，Hive 问题

我正在尝试启动 Spark/Shark 集群，但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作，并按说明处理 Hive。

我认为 Shark Driver 正在使用另一个版本的 Hadoop jar，但我不确定为什么。

这是详细信息，任何帮助都会很棒。

火花/鲨鱼 0.9.0

Apache Hadoop 2.3.0

Amlabs Hive 0.11

斯卡拉 2.10.3

爪哇 7

我已经安装了所有东西，但我收到了一些弃用警告，然后是一个异常：

14/03/14 11:24:47 INFO Configuration.deprecation: mapred.input.dir.recursive 已弃用。相反，使用 mapreduce.input.fileinputformat.input.dir.recursive

14/03/14 11:24:47 INFO Configuration.deprecation: mapred.max.split.size 已弃用。相反，使用 mapreduce.input.fileinputformat.split.maxsize

例外：

hadoop apache-spark shark-sql

2014-03-18T10:43:49.493

0 投票

2 回答

1669 浏览

hadoop - 在 Shark Hive 中创建连接两个现有表的表

我有两个表oldTable，newTable内容为：

oldTable：

newTable：

我想创建一个总结两个表中的volumes 的新表。即，新表应包含以下内容：

joined_table：

我尝试了以下语句，但没有结果：

但这给我一个错误的说法Query returned non-zero code: 10, cause: FAILED: Error in semantic analysis: Ambiguous column reference key。

我尝试更改上述查询中的列名joined_table，但它给了我同样的错误。关于如何实现这一目标的任何帮助？

另外，有什么方法可以将结果覆盖到现有表中，oldTable而不是创建这个新表？

hadoop hive hiveql apache-spark shark-sql

2014-03-20T06:39:31.927

0 投票

1 回答

417 浏览

scala - Shark 入门：所有查询挂起

我是鲨鱼的菜鸟-尽管我确实对火花有一些经验。从鲨鱼那里检索数据的每一次尝试都挂了。

作为初步步骤：让我们确保 spark 正常运行：

我已经仔细检查了正确安装 spark 的 Shark-env.sh 点。

现在让我们去鲨鱼并尝试（a）读取相同的文件和（b）读取鲨鱼表

（一个）

更多细节

以下是 Shark-env.sh 的相关部分

从鲨鱼壳，让我们确保我们正在与同一个火花服务器交谈

scala apache-spark shark-sql

2014-04-11T03:49:35.200

0 投票

2 回答

130 浏览

apache-spark - Spark 需要多少台 Shark 服务器？

我是 Spark/Shark 的新手，并且已经用三个 Spark 工作人员创建了一个集群。我开始在相同的三台服务器上安装 Shark，但我得出的结论是，这可能不是必需的，只需要一台 Shark 服务器——我在文档中找不到任何与此相关的内容。我是否只需要一台 Shark 服务器，因为 Spark/Hive 将承担繁重的工作，还是需要将其分发到 Spark 所在的所有服务器？

apache-spark shark-sql

2014-04-17T17:17:06.253

0 投票

1 回答

186 浏览

sql - 限制 JOIN 中的行数或行数

我正在尝试加入两个表

这当然有效，但也根据分布表中给出的“计数”限制从分数表返回的行数，不幸的是我无法开始工作。我尝试了子查询，包括 - SELECT * FROM (SELECT) - 和 - JOIN(SELECT ...)。理想情况下，我还可以获得分数的随机样本 - TABLESAMPLE ( ROWS) 来救援？

我已经看到了很多 MS SQL 和 Oracle 的解决方案，但找不到任何适用于 Hive 的解决方案（也许 Hive 0.13 可以做到这一点 - 但我还没有弄清楚如何升级作为 Shark 底层的 Hive）。

在 Hive（和 Shark）中是否有可能发生这样的事情，或者我是否以完全错误的方式来解决这个问题？非常感谢您的帮助！！

顺便说一句 - 我在 Apache Shark 0.9.1 上并按照说明在本地运行 Shark（即不在 Hadoop/Hive 集群中）。我的表格如下

这就是我想要得到的：

sql hive shark-sql

2014-04-17T23:09:31.920

1 2 3 4 5 6 7 8 9 10

问题标签 [shark-sql]

Reference