问题标签 [shark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
607 浏览

mysql - 在 Mac OSX 上使用 Apache SHARK 运行查询

我在 Mac OSX 10.8 上本地运行 Shark 查询时遇到问题。我正在尝试对存储在 Hive 中的数据运行一些测试查询。我正在使用 Scala 2.9.3 和 Hive 0.9.0,两者似乎都运行良好。Hive 数据库使用 MySQL 来存储元数据。

我可以很好地启动 Shark。我可以在 Shark 控制台中看到我在 Hive 中的所有数据库。我可以切换到所需的数据库。但是当我尝试查询数据时,我得到了错误。

简单的查询如下所示:

错误如下所示:

0 投票
1 回答
279 浏览

apache-spark - 如何将 sbt Shark API (sql2rdd) 插入 Spark 交互式 Shell

作为一个 linux 菜鸟,我最近设置了 spark 和 Shark 来玩。我想使用一个 API sql2rdd 将数据从鲨鱼拉到 rdd。但是,我不知道 sql2rdd 库在哪里以及如何与 Spark Interactive Shell 链接。我在网上某处读到,Shark API 需要在没有任何说明的情况下进入 Spark 目录。如果有人知道,请指教。提前致谢。

0 投票
2 回答
772 浏览

scala - 使用 hadoop 2.2.0 运行 Shark-0.9.0 时出现 IncompatibleClassChangeError

运行鲨鱼 0.9.0 时出现以下错误。

线程“主”java.lang.IncompatibleClassChangeError 中的异常:找到类 scala.collection.mutable.ArrayOps,但在 Shark.SharkCliDriver$.main(SharkCliDriver.scala:82) 处的接口应为 Shark.SharkCliDriver.main(SharkCliDriver.scala )

关于这个问题的任何解决方案都是非常可观的。

0 投票
1 回答
229 浏览

hadoop - Apache Spark 上的 AMPLab Shark

根据文档,

“Apache Spark 是用于大规模数据处理的快速通用引擎。”

“Shark 是用于 Hadoop 数据的开源分布式 SQL 查询引擎。”

Shark 使用 Spark 作为依赖项。

我的问题是,如果我们使用 Shark 对分析查询进行快速响应,Spark 是否只是将 HiveQL 解析为 Spark 作业,或者有什么好处?

0 投票
1 回答
121 浏览

cassandra - 整合 cassandra 和鲨鱼

我试图让鲨鱼在 Cassandra 上工作,所以我将数据从 Cassandra 拉到鲨鱼中并运行查询。我使用了 CASH 开源存储处理程序,当我在本地运行 Shark 时它似乎可以工作,但是在分发模式下看起来像 spark 从站不会将输出发送回主站(我在 Shark shell 上看不到输出)。

0 投票
1 回答
973 浏览

hadoop - 安装 Spark 集群,Hive 问题

我正在尝试启动 Spark/Shark 集群,但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作,并按说明处理 Hive。

我认为 Shark Driver 正在使用另一个版本的 Hadoop jar,但我不确定为什么。

这是详细信息,任何帮助都会很棒。

火花/鲨鱼 0.9.0

Apache Hadoop 2.3.0

Amlabs Hive 0.11

斯卡拉 2.10.3

爪哇 7

我已经安装了所有东西,但我收到了一些弃用警告,然后是一个异常:

14/03/14 11:24:47 INFO Configuration.deprecation: mapred.input.dir.recursive 已弃用。相反,使用 mapreduce.input.fileinputformat.input.dir.recursive

14/03/14 11:24:47 INFO Configuration.deprecation: mapred.max.split.size 已弃用。相反,使用 mapreduce.input.fileinputformat.split.maxsize

例外:

0 投票
2 回答
1669 浏览

hadoop - 在 Shark Hive 中创建连接两个现有表的表

我有两个表oldTablenewTable内容为:

oldTable

newTable

我想创建一个总结两个表中的volumes 的新表。即,新表应包含以下内容:

joined_table

我尝试了以下语句,但没有结果:

但这给我一个错误的说法Query returned non-zero code: 10, cause: FAILED: Error in semantic analysis: Ambiguous column reference key

我尝试更改上述查询中的列名joined_table,但它给了我同样的错误。关于如何实现这一目标的任何帮助?

另外,有什么方法可以将结果覆盖到现有表中,oldTable而不是创建这个新表?

0 投票
1 回答
417 浏览

scala - Shark 入门:所有查询挂起

我是鲨鱼的菜鸟-尽管我确实对火花有一些经验。从鲨鱼那里检索数据的每一次尝试都挂了。

作为初步步骤:让我们确保 spark 正常运行:

我已经仔细检查了正确安装 spark 的 Shark-env.sh 点。

现在让我们去鲨鱼并尝试(a)读取相同的文件和(b)读取鲨鱼表

(一个)

更多细节

以下是 Shark-env.sh 的相关部分

从鲨鱼壳,让我们确保我们正在与同一个火花服务器交谈

0 投票
2 回答
130 浏览

apache-spark - Spark 需要多少台 Shark 服务器?

我是 Spark/Shark 的新手,并且已经用三个 Spark 工作人员创建了一个集群。我开始在相同的三台服务器上安装 Shark,但我得出的结论是,这可能不是必需的,只需要一台 Shark 服务器——我在文档中找不到任何与此相关的内容。我是否只需要一台 Shark 服务器,因为 Spark/Hive 将承担繁重的工作,还是需要将其分发到 Spark 所在的所有服务器?

0 投票
1 回答
186 浏览

sql - 限制 JOIN 中的行数或行数

我正在尝试加入两个表

这当然有效,但也根据分布表中给出的“计数”限制从分数表返回的行数,不幸的是我无法开始工作。我尝试了子查询,包括 - SELECT * FROM (SELECT) - 和 - JOIN(SELECT ...)。理想情况下,我还可以获得分数的随机样本 - TABLESAMPLE ( ROWS) 来救援?

我已经看到了很多 MS SQL 和 Oracle 的解决方案,但找不到任何适用于 Hive 的解决方案(也许 Hive 0.13 可以做到这一点 - 但我还没有弄清楚如何升级作为 Shark 底层的 Hive)。

在 Hive(和 Shark)中是否有可能发生这样的事情,或者我是否以完全错误的方式来解决这个问题?非常感谢您的帮助!!

顺便说一句 - 我在 Apache Shark 0.9.1 上并按照说明在本地运行 Shark(即不在 Hadoop/Hive 集群中)。我的表格如下

这就是我想要得到的: