问题标签 [shark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - 在 Mac OSX 上使用 Apache SHARK 运行查询
我在 Mac OSX 10.8 上本地运行 Shark 查询时遇到问题。我正在尝试对存储在 Hive 中的数据运行一些测试查询。我正在使用 Scala 2.9.3 和 Hive 0.9.0,两者似乎都运行良好。Hive 数据库使用 MySQL 来存储元数据。
我可以很好地启动 Shark。我可以在 Shark 控制台中看到我在 Hive 中的所有数据库。我可以切换到所需的数据库。但是当我尝试查询数据时,我得到了错误。
简单的查询如下所示:
错误如下所示:
apache-spark - 如何将 sbt Shark API (sql2rdd) 插入 Spark 交互式 Shell
作为一个 linux 菜鸟,我最近设置了 spark 和 Shark 来玩。我想使用一个 API sql2rdd 将数据从鲨鱼拉到 rdd。但是,我不知道 sql2rdd 库在哪里以及如何与 Spark Interactive Shell 链接。我在网上某处读到,Shark API 需要在没有任何说明的情况下进入 Spark 目录。如果有人知道,请指教。提前致谢。
scala - 使用 hadoop 2.2.0 运行 Shark-0.9.0 时出现 IncompatibleClassChangeError
运行鲨鱼 0.9.0 时出现以下错误。
线程“主”java.lang.IncompatibleClassChangeError 中的异常:找到类 scala.collection.mutable.ArrayOps,但在 Shark.SharkCliDriver$.main(SharkCliDriver.scala:82) 处的接口应为 Shark.SharkCliDriver.main(SharkCliDriver.scala )
关于这个问题的任何解决方案都是非常可观的。
hadoop - Apache Spark 上的 AMPLab Shark
根据文档,
“Apache Spark 是用于大规模数据处理的快速通用引擎。”
“Shark 是用于 Hadoop 数据的开源分布式 SQL 查询引擎。”
Shark 使用 Spark 作为依赖项。
我的问题是,如果我们使用 Shark 对分析查询进行快速响应,Spark 是否只是将 HiveQL 解析为 Spark 作业,或者有什么好处?
cassandra - 整合 cassandra 和鲨鱼
我试图让鲨鱼在 Cassandra 上工作,所以我将数据从 Cassandra 拉到鲨鱼中并运行查询。我使用了 CASH 开源存储处理程序,当我在本地运行 Shark 时它似乎可以工作,但是在分发模式下看起来像 spark 从站不会将输出发送回主站(我在 Shark shell 上看不到输出)。
hadoop - 安装 Spark 集群,Hive 问题
我正在尝试启动 Spark/Shark 集群,但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作,并按说明处理 Hive。
我认为 Shark Driver 正在使用另一个版本的 Hadoop jar,但我不确定为什么。
这是详细信息,任何帮助都会很棒。
火花/鲨鱼 0.9.0
Apache Hadoop 2.3.0
Amlabs Hive 0.11
斯卡拉 2.10.3
爪哇 7
我已经安装了所有东西,但我收到了一些弃用警告,然后是一个异常:
14/03/14 11:24:47 INFO Configuration.deprecation: mapred.input.dir.recursive 已弃用。相反,使用 mapreduce.input.fileinputformat.input.dir.recursive
14/03/14 11:24:47 INFO Configuration.deprecation: mapred.max.split.size 已弃用。相反,使用 mapreduce.input.fileinputformat.split.maxsize
例外:
hadoop - 在 Shark Hive 中创建连接两个现有表的表
我有两个表oldTable
,newTable
内容为:
oldTable
:
newTable
:
我想创建一个总结两个表中的volume
s 的新表。即,新表应包含以下内容:
joined_table
:
我尝试了以下语句,但没有结果:
但这给我一个错误的说法Query returned non-zero code: 10, cause: FAILED: Error in semantic analysis: Ambiguous column reference key
。
我尝试更改上述查询中的列名joined_table
,但它给了我同样的错误。关于如何实现这一目标的任何帮助?
另外,有什么方法可以将结果覆盖到现有表中,oldTable
而不是创建这个新表?
scala - Shark 入门:所有查询挂起
我是鲨鱼的菜鸟-尽管我确实对火花有一些经验。从鲨鱼那里检索数据的每一次尝试都挂了。
作为初步步骤:让我们确保 spark 正常运行:
我已经仔细检查了正确安装 spark 的 Shark-env.sh 点。
现在让我们去鲨鱼并尝试(a)读取相同的文件和(b)读取鲨鱼表
(一个)
更多细节
以下是 Shark-env.sh 的相关部分
从鲨鱼壳,让我们确保我们正在与同一个火花服务器交谈
apache-spark - Spark 需要多少台 Shark 服务器?
我是 Spark/Shark 的新手,并且已经用三个 Spark 工作人员创建了一个集群。我开始在相同的三台服务器上安装 Shark,但我得出的结论是,这可能不是必需的,只需要一台 Shark 服务器——我在文档中找不到任何与此相关的内容。我是否只需要一台 Shark 服务器,因为 Spark/Hive 将承担繁重的工作,还是需要将其分发到 Spark 所在的所有服务器?
sql - 限制 JOIN 中的行数或行数
我正在尝试加入两个表
这当然有效,但也根据分布表中给出的“计数”限制从分数表返回的行数,不幸的是我无法开始工作。我尝试了子查询,包括 - SELECT * FROM (SELECT) - 和 - JOIN(SELECT ...)。理想情况下,我还可以获得分数的随机样本 - TABLESAMPLE ( ROWS) 来救援?
我已经看到了很多 MS SQL 和 Oracle 的解决方案,但找不到任何适用于 Hive 的解决方案(也许 Hive 0.13 可以做到这一点 - 但我还没有弄清楚如何升级作为 Shark 底层的 Hive)。
在 Hive(和 Shark)中是否有可能发生这样的事情,或者我是否以完全错误的方式来解决这个问题?非常感谢您的帮助!!
顺便说一句 - 我在 Apache Shark 0.9.1 上并按照说明在本地运行 Shark(即不在 Hadoop/Hive 集群中)。我的表格如下
这就是我想要得到的: