问题标签 [shark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
589 浏览

hadoop - Apache Shark 0.9.1 无法连接到 HDFS?

在 Shark 中,当我运行时:

我得到:

错误日志显示:

有谁知道为什么 Shark 不在 Hadoop 中创建表?

0 投票
1 回答
3025 浏览

scala - Scala Spark / Shark:如何访问 Hortonworks 中现有的 Hive 表?

我正在尝试查找有关该主题的方法的一些文档/描述,请提供帮助。我安装了 Hortonworks 的 Hadoop 2.2.0 和一些我需要查询的现有 Hive 表。Hive SQL 在单节点和集群上的运行速度也异常缓慢。我希望 Shark 能更快地工作。

从 Spark/Shark 文档中,我无法弄清楚如何让 Shark 与现有的 Hive 表一起工作。任何想法如何实现这一目标?谢谢!

0 投票
1 回答
1977 浏览

json - 将多个 JSON 记录从一个文件加载到 HIVE

我正在尝试使用 JSON Serde 将 JSON 文件加载到 Hive 中。我能够一次让它为一个 JSON 文件工作,但我想知道是否有可能一次在 JSON 文件中有多个记录并一次加载它们。给出一个想法,我的 JSON 文件如下所示:

文件 1

文件 2

我将它们组合成一个 JSON 文件,如下所示:

当我加载这个文件时,只加载了第一条记录。我的表 DDL 如下:

我使用标准LOAD命令。

当我查询表时,只插入了一条记录。

我在创建 JSON 文件时做错了吗?或者不可能在一个 JSON 文件中有两条记录?任何帮助将非常感激。

谢谢,TM

0 投票
1 回答
106 浏览

scala - Shark 中的无效缓存类型异常

我正在尝试在shark-0.8.0. 根据文档(https://github.com/amplab/shark/wiki/Shark-User-Guide),我创建了如下表:

该表已创建,我可以使用LOAD DATA命令加载数据。但是当我尝试查询该表时,即使是一条SELECT COUNT(1)语句也失败并出现以下错误:

根据 GitHub 上的代码 ( https://github.com/amplab/shark/blob/master/src/main/scala/shark/memstore2/CacheType.scala ),该选项MEMORY是有效的。我也尝试了MEMORY_ONLY选项,它给了我同样的错误。关于这里出了什么问题的任何建议或想法?

谢谢,TM

0 投票
1 回答
1977 浏览

scala - 从 Scala (shark-shell) 访问 Shark 表 (Hive)

我有shark-0.8.0哪个在hive-0.9.0. 我可以通过调用在 Hive 上编程shark。我创建了一些表并在其中加载了数据。

现在,我正在尝试使用Scala. 我Scala使用shark-shell. 但是当我尝试选择时,我得到一个表不存在的错误。

从文档 ( https://github.com/amplab/shark/wiki/Shark-User-Guide ) 中,这些步骤足以Shark启动和运行并使用Scala. 还是我错过了什么?是否有一些配置文件需要修改以启用对 Shark 的访问shark-shell

0 投票
0 回答
1128 浏览

hadoop - 从基于 JSON Serde 的 Hive 表将数据加载到 Parquet 表中的问题

我有一个HIVE使用JSON Serde. 我正在使用Shark发行版(http://shark.cs.berkeley.edu/)。定义如下:

我能够成功地将数据加载到该表中。现在,我ParquetHIVE.

现在,我尝试使用以下命令将表中的数据加载到JSON Serde表中:Parquet

insert语句成功完成。但是当我查询Parquet表中的数据时,所有列都填充了NULL值。我在网上搜索了类似的问题,但还没有看到类似的东西。有人对这里出了什么问题有一些想法吗?

谢谢,维沙赫

0 投票
3 回答
55307 浏览

sql - HIVE 中的 LIMIT 子句真的是随机的吗?

说明该条款的文档。我一直在一个表上运行一个表,其中包含多个记录,但它总是返回相同的记录。HIVELIMITreturns rows chosen at randomSELECT800,000LIMIT 1

我正在使用该Shark发行版,我想知道这是否与这种意外行为有关?任何想法将不胜感激。

谢谢,维沙赫

0 投票
1 回答
205 浏览

cassandra - 使用 cassandra 实时处理大数据

我正在为销售人员开发应用程序。我无法弄清楚如何在我的应用程序中管理大数据。以下是场景。

我根据以下标准划分了位置。

Country => State => City => Territory => Area => Outlet。

我管理日常销售的表格结构大致如下。

插座 ID - 1,2,3,4,5,6 ...

用户 ID - EMP001,EMP002,EMP003,EMP004,EMP005,EMP006 ...

产品编号 - 78,54,21,11,09,83 ..

数量 - 12,34,67,43,70,03 ..

日期和时间 - 01/05/2014 – 11.00,01/05/2014 – 12.00,01/05/2014 – 14.00 ..

和其他文件。基于上述数据结构,将有许多实时查看的报告。

我们每天有 100 万行插入。我已经将 Casandra 缩小为 NO-SQL 数据库。

现在我需要一个可以查询和管理实时分析的数据库。听说并阅读了这些开源工具,例如 - Hbase、Pig、Hive、Presto DB、Impala、Sharp、Shark 等。

目前,我无法判断哪个最适合我的实时分析和预测产品销售应用程序。

您的帮助和指导将不胜感激。

谢谢

0 投票
1 回答
385 浏览

apache-spark - 是否可以对 Spark Streaming 数据运行 Shark 查询?

是否可以对 Spark Streaming 应用程序的 DStreams 中包含的数据运行 Shark 查询?(例如在 foreachRDD 调用中)

是否有任何特定的 API 可以做到这一点?

谢谢。

0 投票
0 回答
351 浏览

hadoop - 尝试使用 Apache Shark 执行 SQL 时出现异常

我正在尝试将配置单元元存储与 Shark-0.9.1 (hive-0.11.0) 一起使用。现在,我很乐意让它在单个节点上运行,因此不涉及奴隶制。在运行 hive 时,我可以创建表并执行 SQL 语句,例如

使用火花时,几乎唯一有效的是

它显示了以前使用 hive 创建的表。

像上面的 SELECT 一样的任何其他语句都会给我一个错误。

(还有更多“在 java.lang....”)。

我还注意到,在初始化鲨鱼时,我收到以下消息:

有什么想法可能是这些问题的原因吗?我应该补充一点,我对此很陌生,所以这可能是我错过的一些非常基本的事情。