问题标签 [shark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1121 浏览

scala - 查询表时,shark/spark 抛出 NPE

Shark/spark wiki 的开发部分非常简短,因此我尝试编写代码以编程方式查询表。这里是 ...

我可以创建表 src 并将数据加载到 src 中,但是最后一个查询抛出 NPE 并失败,这是输出...

但是,我可以通过在 bin/shark-withinfo 调用的 shell 中输入 select * from src 来查询 src 表

您可能会问我如何在由“bin/shark-shell”触发的 shell 中尝试该 sql。好吧,我无法进入那个外壳。这是我遇到的错误...

https://groups.google.com/forum/?fromgroups=#!topic/shark-users/glZzrUfabGc

[编辑 1]:这个 NPE 似乎是由 SharkENV.sc 导致的,所以我添加了

在执行任何 sql2console 操作之前。然后它抱怨 scala.tools.nsc 的 ClassNotFoundException,所以我手动将 scala-compiler 放在类路径中。之后,代码又抱怨了另一个 ClassNotFoundException,我不知道如何修复它,因为我确实将鲨鱼罐放在了类路径中。

[编辑 2]:好的,我想出了另一个代码,它可以通过完全按照鲨鱼的源代码来实现我想要的,如何初始化交互式 repl。

这很丑陋,但至少它有效。欢迎任何关于如何编写更健壮的代码的评论!

对于希望以编程方式对 Shark 进行操作的人,请注意所有 hive 和 Shark jar 都必须在您的 CLASSPATH 中,并且 scala 编译器也必须在您的类路径中。另一个重要的事情是 hadoop 的 conf 也应该在类路径中。

0 投票
2 回答
9583 浏览

cassandra - 比较 Cassandra 的 CQL、Spark/Shark 查询与 Hive/Hadoop(DSE 版本)

我想听听您对使用 CQL 和内存查询引擎 Spark/Shark 的想法和经验。据我所知,CQL 处理器在每个节点上的 Cassandra JVM 中运行。与 Cassandra 集群相连的 Shark/Spark 查询处理器在一个单独的集群中运行。此外,Datastax 有 DSE 版本的 Cassandra,它允许部署 Hadoop/Hive。问题是在哪个用例中我们会选择一个特定的解决方案而不是另一个。

0 投票
1 回答
291 浏览

hive - 蜂巢和钻头如何整合?

与高延迟的 Hive 相比,Drill 看起来像是一个有趣的工具,用于 ad-hoc 向下钻取查询。
似乎这两者之间应该有一个不错的整合,但我找不到它。
假设今天我所有的工作都是在 Hive/Shark 上完成的,我如何将它与 Drill 集成?
我必须来回切换到 Drill 引擎吗?
我正在寻找类似于 Shark 和 Hive 的集成。

0 投票
2 回答
1508 浏览

python - 是否有任何 python 或 scala 工具来连接 spark/shark

我想使用 python 或 scala 连接鲨鱼服务器。但我没有找到任何工具来做到这一点。是否有任何库(python 或 scala/java)。谢谢先进。

0 投票
2 回答
259 浏览

playframework-2.0 - 将 Play 框架与 Berkeley Shark 集成

我正在尝试从基于 Plat 2.0.8 的 Scala 应用程序连接到 Berkeley Shark 上下文以从 Shark 表中获取数据。你能告诉我怎么做吗?Spark 文档很少。谢谢

0 投票
1 回答
1255 浏览

scala - 有没有人在 Cassandra 上成功运行 Apache Spark 和 Shark

我正在尝试配置一个 5 节点的 cassandra 集群来运行 Spark/Shark 来测试一些 Hive 查询。我已经安装了 Spark、Scala、Shark 并根据 Amplab [在集群上运行 Shark] https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster进行了配置。

我能够进入 Shark CLI,当我尝试从我的一个 Cassandra ColumnFamily 表中创建一个外部表时,我不断收到此错误

失败并出现异常 org.apache.hadoop.hive.ql.metadata.HiveException:加载存储处理程序时出错。org.apache.hadoop.hive.cassandra.CassandraStorageHandler

失败:执行错误,从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1

我已经配置了 HIVE_HOME、HADOOP_HOME、SCALA_HOME。也许我将 HIVE_HOME 和 HADOOP_HOME 指向错误的路径?HADOOP_HOME 设置为我的 Cassandra hadoop 文件夹 (/etc/dse/cassandra),HIVE_HOME 设置为 Hadoop1/hive 的解压 Amlad 下载,我还将 HIVE_CONF_DIR 设置为我的 Cassandra Hive 路径 (/etc/dse/hive)。我错过了任何步骤吗?还是我错误地配置了这些位置?请问有什么想法吗?任何帮助将不胜感激。谢谢

0 投票
5 回答
61976 浏览

hadoop - 如何让鲨鱼/火花清除缓存?

当我运行我的鲨鱼查询时,内存被囤积在主内存中这是我的顶级命令结果。


内存:总计 74237344k,已使用 70080492k,可用 4156852k,399544k 缓冲区交换:总计 41942888k,已使用 480k,可用 4193808k,缓存 65965904k


即使我杀死/停止鲨鱼、火花、hadoop 进程,这也不会改变。现在,清除缓存的唯一方法是重新启动机器。

有没有人遇到过这个问题?是一些配置问题还是 spark/shark 中的已知问题?

0 投票
1 回答
1404 浏览

hadoop - 无法使用 S3 位置恢复 Shark for Hive 表中的分区

我正在尝试在 EMR 上使用 Shark,但我似乎无法从位置设置为 S3 存储桶的表中恢复我的分区。当我尝试显示我的分区时,我什么也没得到。

我创建我的表

我的日志存储桶包含一个位于s3://my-log/parsed-logs/dt=2014-01-03/level=ERROR/.

根据Hive 语言手册,该MSCK REPAIR TABLE logs命令应该等同于 Amazons Hive 扩展,但是当我运行该命令时,我看不到任何分区。我在 Hive 中尝试了完全相同的东西,它就像一个魅力。ALTER TABLE logs RECOVER PARTITIONSALTER TABLE logs RECOVER PARTITIONS

当我使用 Shark 时,我在这里遗漏了什么吗?

0 投票
1 回答
570 浏览

maven - 通过 Shark API 查询不起作用

我正在尝试通过 Shark Java API 从集群上的 Hive 表中进行查询(简单的选择)。

但是我收到此错误消息:

随后出现此错误:

似乎这是 Guava 依赖项的问题,但我就是不知道是什么问题。

我正在使用 Spark-0.8.0、Shark-0.8.0、Hive-0.9.0 和 Hadoop-4.5.0。

我的 .pom 文件中唯一需要 Guava 的依赖项是:

有谁知道如何解决这个问题?

谢谢。

0 投票
1 回答
746 浏览

hive - 失败:Hive 内部错误:java.util.NoSuchElementException(null) 在从鲨鱼命令行运行 CREATE TABLE 查询时

我正在尝试通过执行以下命令使用 Shark 在配置单元元存储中创建一个表:

但我总是得到:

FAILED: Hive Internal Error: java.util.NoSuchElementException(null)

在 google group-shark-users 中阅读同样的内容,但唉。

我的 spark 版本是 0.8.1 我的 shark 版本是 0.8.1 Hive 二进制版本是 0.9.0

我已经从 cdh4.5.0 预安装了 hive-0.10.0,但我无法使用它,因为 Shark 0.8.1 与 hive-0.10.0 尚不兼容。

我可以运行各种查询,例如select * from table_name; 但不创建表查询。即使尝试创建缓存表也会失败。

如果我尝试使用我的 HADOOP_VERSION=2.0.0cdh4.5.0 进行 sbt 构建,我会收到 DistributedFileSystem 错误并且我无法运行任何查询。

我迫切需要一个解决方案。如果有人能把我引向正确的方向,我会很高兴。我有 mysql 数据库而不是 derby。