“shark-sql”的相关标签问题

0 投票

1 回答

1121 浏览

scala - 查询表时，shark/spark 抛出 NPE

Shark/spark wiki 的开发部分非常简短，因此我尝试编写代码以编程方式查询表。这里是 ...

我可以创建表 src 并将数据加载到 src 中，但是最后一个查询抛出 NPE 并失败，这是输出...

但是，我可以通过在 bin/shark-withinfo 调用的 shell 中输入 select * from src 来查询 src 表

您可能会问我如何在由“bin/shark-shell”触发的 shell 中尝试该 sql。好吧，我无法进入那个外壳。这是我遇到的错误...

https://groups.google.com/forum/?fromgroups=#!topic/shark-users/glZzrUfabGc

[编辑 1]：这个 NPE 似乎是由 SharkENV.sc 导致的，所以我添加了

在执行任何 sql2console 操作之前。然后它抱怨 scala.tools.nsc 的 ClassNotFoundException，所以我手动将 scala-compiler 放在类路径中。之后，代码又抱怨了另一个 ClassNotFoundException，我不知道如何修复它，因为我确实将鲨鱼罐放在了类路径中。

[编辑 2]：好的，我想出了另一个代码，它可以通过完全按照鲨鱼的源代码来实现我想要的，如何初始化交互式 repl。

这很丑陋，但至少它有效。欢迎任何关于如何编写更健壮的代码的评论！

对于希望以编程方式对 Shark 进行操作的人，请注意所有 hive 和 Shark jar 都必须在您的 CLASSPATH 中，并且 scala 编译器也必须在您的类路径中。另一个重要的事情是 hadoop 的 conf 也应该在类路径中。

2013-01-06T22:53:30.910

0 投票

2 回答

9583 浏览

cassandra - 比较 Cassandra 的 CQL、Spark/Shark 查询与 Hive/Hadoop（DSE 版本）

我想听听您对使用 CQL 和内存查询引擎 Spark/Shark 的想法和经验。据我所知，CQL 处理器在每个节点上的 Cassandra JVM 中运行。与 Cassandra 集群相连的 Shark/Spark 查询处理器在一个单独的集群中运行。此外，Datastax 有 DSE 版本的 Cassandra，它允许部署 Hadoop/Hive。问题是在哪个用例中我们会选择一个特定的解决方案而不是另一个。

cassandra hive cql apache-spark shark-sql

2013-06-14T17:18:44.430

0 投票

1 回答

291 浏览

hive - 蜂巢和钻头如何整合？

与高延迟的 Hive 相比，Drill 看起来像是一个有趣的工具，用于 ad-hoc 向下钻取查询。
似乎这两者之间应该有一个不错的整合，但我找不到它。
假设今天我所有的工作都是在 Hive/Shark 上完成的，我如何将它与 Drill 集成？
我必须来回切换到 Drill 引擎吗？
我正在寻找类似于 Shark 和 Hive 的集成。

hive mapr shark-sql apache-drill

2013-09-24T10:01:05.943

0 投票

2 回答

1508 浏览

python - 是否有任何 python 或 scala 工具来连接 spark/shark

我想使用 python 或 scala 连接鲨鱼服务器。但我没有找到任何工具来做到这一点。是否有任何库（python 或 scala/java）。谢谢先进。

python scala apache-spark shark-sql

2013-10-12T08:10:46.053

0 投票

2 回答

259 浏览

playframework-2.0 - 将 Play 框架与 Berkeley Shark 集成

我正在尝试从基于 Plat 2.0.8 的 Scala 应用程序连接到 Berkeley Shark 上下文以从 Shark 表中获取数据。你能告诉我怎么做吗？Spark 文档很少。谢谢

playframework-2.0 shark-sql

2013-11-12T10:44:14.023

0 投票

1 回答

1255 浏览

scala - 有没有人在 Cassandra 上成功运行 Apache Spark 和 Shark

我正在尝试配置一个 5 节点的 cassandra 集群来运行 Spark/Shark 来测试一些 Hive 查询。我已经安装了 Spark、Scala、Shark 并根据 Amplab [在集群上运行 Shark] https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster进行了配置。

我能够进入 Shark CLI，当我尝试从我的一个 Cassandra ColumnFamily 表中创建一个外部表时，我不断收到此错误

失败并出现异常 org.apache.hadoop.hive.ql.metadata.HiveException：加载存储处理程序时出错。org.apache.hadoop.hive.cassandra.CassandraStorageHandler

失败：执行错误，从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1

我已经配置了 HIVE_HOME、HADOOP_HOME、SCALA_HOME。也许我将 HIVE_HOME 和 HADOOP_HOME 指向错误的路径？HADOOP_HOME 设置为我的 Cassandra hadoop 文件夹 (/etc/dse/cassandra)，HIVE_HOME 设置为 Hadoop1/hive 的解压 Amlad 下载，我还将 HIVE_CONF_DIR 设置为我的 Cassandra Hive 路径 (/etc/dse/hive)。我错过了任何步骤吗？还是我错误地配置了这些位置？请问有什么想法吗？任何帮助将不胜感激。谢谢

scala cassandra hive apache-spark shark-sql

2013-11-15T10:58:01.417

0 投票

5 回答

61976 浏览

hadoop - 如何让鲨鱼/火花清除缓存？

当我运行我的鲨鱼查询时，内存被囤积在主内存中这是我的顶级命令结果。

内存：总计 74237344k，已使用 70080492k，可用 4156852k，399544k 缓冲区交换：总计 41942888k，已使用 480k，可用 4193808k，缓存 65965904k

即使我杀死/停止鲨鱼、火花、hadoop 进程，这也不会改变。现在，清除缓存的唯一方法是重新启动机器。

有没有人遇到过这个问题？是一些配置问题还是 spark/shark 中的已知问题？

hadoop hive apache-spark shark-sql

2013-12-11T11:19:42.153

0 投票

1 回答

1404 浏览

hadoop - 无法使用 S3 位置恢复 Shark for Hive 表中的分区

我正在尝试在 EMR 上使用 Shark，但我似乎无法从位置设置为 S3 存储桶的表中恢复我的分区。当我尝试显示我的分区时，我什么也没得到。

我创建我的表

我的日志存储桶包含一个位于s3://my-log/parsed-logs/dt=2014-01-03/level=ERROR/.

根据Hive 语言手册，该MSCK REPAIR TABLE logs命令应该等同于 Amazons Hive 扩展，但是当我运行该命令时，我看不到任何分区。我在 Hive 中尝试了完全相同的东西，它就像一个魅力。ALTER TABLE logs RECOVER PARTITIONSALTER TABLE logs RECOVER PARTITIONS

当我使用 Shark 时，我在这里遗漏了什么吗？

hadoop amazon-s3 hive amazon-emr shark-sql

2014-01-08T12:19:35.837

0 投票

1 回答

570 浏览

maven - 通过 Shark API 查询不起作用

我正在尝试通过 Shark Java API 从集群上的 Hive 表中进行查询（简单的选择）。

但是我收到此错误消息：

随后出现此错误：

似乎这是 Guava 依赖项的问题，但我就是不知道是什么问题。

我正在使用 Spark-0.8.0、Shark-0.8.0、Hive-0.9.0 和 Hadoop-4.5.0。

我的 .pom 文件中唯一需要 Guava 的依赖项是：

有谁知道如何解决这个问题？

谢谢。

maven hadoop guava apache-spark shark-sql

2014-01-15T15:46:02.770

0 投票

1 回答

746 浏览

hive - 失败：Hive 内部错误：java.util.NoSuchElementException(null) 在从鲨鱼命令行运行 CREATE TABLE 查询时

我正在尝试通过执行以下命令使用 Shark 在配置单元元存储中创建一个表：

但我总是得到：

FAILED: Hive Internal Error: java.util.NoSuchElementException(null)

在 google group-shark-users 中阅读同样的内容，但唉。

我的 spark 版本是 0.8.1 我的 shark 版本是 0.8.1 Hive 二进制版本是 0.9.0

我已经从 cdh4.5.0 预安装了 hive-0.10.0，但我无法使用它，因为 Shark 0.8.1 与 hive-0.10.0 尚不兼容。

我可以运行各种查询，例如select * from table_name; 但不创建表查询。即使尝试创建缓存表也会失败。

如果我尝试使用我的 HADOOP_VERSION=2.0.0cdh4.5.0 进行 sbt 构建，我会收到 DistributedFileSystem 错误并且我无法运行任何查询。

我迫切需要一个解决方案。如果有人能把我引向正确的方向，我会很高兴。我有 mysql 数据库而不是 derby。

hive apache-spark shark-sql

2014-01-29T15:37:13.867

问题标签 [shark-sql]

Reference