问题标签 [shark-sql]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

59 问题

0 投票

1 回答

589 浏览

hadoop - Apache Shark 0.9.1 无法连接到 HDFS？

在 Shark 中，当我运行时：

我得到：

错误日志显示：

有谁知道为什么 Shark 不在 Hadoop 中创建表？

2014-04-22T16:50:32.100

0 投票

1 回答

3025 浏览

scala - Scala Spark / Shark：如何访问 Hortonworks 中现有的 Hive 表？

我正在尝试查找有关该主题的方法的一些文档/描述，请提供帮助。我安装了 Hortonworks 的 Hadoop 2.2.0 和一些我需要查询的现有 Hive 表。Hive SQL 在单节点和集群上的运行速度也异常缓慢。我希望 Shark 能更快地工作。

从 Spark/Shark 文档中，我无法弄清楚如何让 Shark 与现有的 Hive 表一起工作。任何想法如何实现这一目标？谢谢！

scala hadoop hive apache-spark shark-sql

2014-04-25T20:18:03.707

0 投票

1 回答

1977 浏览

json - 将多个 JSON 记录从一个文件加载到 HIVE

我正在尝试使用 JSON Serde 将 JSON 文件加载到 Hive 中。我能够一次让它为一个 JSON 文件工作，但我想知道是否有可能一次在 JSON 文件中有多个记录并一次加载它们。给出一个想法，我的 JSON 文件如下所示：

文件 1

文件 2

我将它们组合成一个 JSON 文件，如下所示：

当我加载这个文件时，只加载了第一条记录。我的表 DDL 如下：

我使用标准LOAD命令。

当我查询表时，只插入了一条记录。

我在创建 JSON 文件时做错了吗？或者不可能在一个 JSON 文件中有两条记录？任何帮助将非常感激。

谢谢，TM

json hive shark-sql

2014-05-02T13:31:15.653

0 投票

1 回答

106 浏览

scala - Shark 中的无效缓存类型异常

我正在尝试在shark-0.8.0. 根据文档（https://github.com/amplab/shark/wiki/Shark-User-Guide），我创建了如下表：

该表已创建，我可以使用LOAD DATA命令加载数据。但是当我尝试查询该表时，即使是一条SELECT COUNT(1)语句也失败并出现以下错误：

根据 GitHub 上的代码 ( https://github.com/amplab/shark/blob/master/src/main/scala/shark/memstore2/CacheType.scala )，该选项MEMORY是有效的。我也尝试了MEMORY_ONLY选项，它给了我同样的错误。关于这里出了什么问题的任何建议或想法？

谢谢，TM

scala hive hiveql apache-spark shark-sql

2014-05-07T12:23:55.350

0 投票

1 回答

1977 浏览

scala - 从 Scala (shark-shell) 访问 Shark 表 (Hive)

我有shark-0.8.0哪个在hive-0.9.0. 我可以通过调用在 Hive 上编程shark。我创建了一些表并在其中加载了数据。

现在，我正在尝试使用Scala. 我Scala使用shark-shell. 但是当我尝试选择时，我得到一个表不存在的错误。

从文档 ( https://github.com/amplab/shark/wiki/Shark-User-Guide ) 中，这些步骤足以Shark启动和运行并使用Scala. 还是我错过了什么？是否有一些配置文件需要修改以启用对 Shark 的访问shark-shell？

scala hive apache-spark shark-sql

2014-05-09T13:27:29.210

0 投票

0 回答

1128 浏览

hadoop - 从基于 JSON Serde 的 Hive 表将数据加载到 Parquet 表中的问题

我有一个HIVE使用JSON Serde. 我正在使用Shark发行版（http://shark.cs.berkeley.edu/）。定义如下：

我能够成功地将数据加载到该表中。现在，我Parquet在HIVE.

现在，我尝试使用以下命令将表中的数据加载到JSON Serde表中：Parquet

insert语句成功完成。但是当我查询Parquet表中的数据时，所有列都填充了NULL值。我在网上搜索了类似的问题，但还没有看到类似的东西。有人对这里出了什么问题有一些想法吗？

谢谢，维沙赫

hadoop hive shark-sql parquet

2014-05-20T07:00:13.040

0 投票

3 回答

55307 浏览

sql - HIVE 中的 LIMIT 子句真的是随机的吗？

说明该条款的文档。我一直在一个表上运行一个表，其中包含多个记录，但它总是返回相同的记录。HIVELIMITreturns rows chosen at randomSELECT800,000LIMIT 1

我正在使用该Shark发行版，我想知道这是否与这种意外行为有关？任何想法将不胜感激。

谢谢，维沙赫

sql hive hiveql shark-sql

2014-05-22T08:55:44.150

0 投票

1 回答

205 浏览

cassandra - 使用 cassandra 实时处理大数据

我正在为销售人员开发应用程序。我无法弄清楚如何在我的应用程序中管理大数据。以下是场景。

我根据以下标准划分了位置。

Country => State => City => Territory => Area => Outlet。

我管理日常销售的表格结构大致如下。

插座 ID - 1,2,3,4,5,6 ...

用户 ID - EMP001,EMP002,EMP003,EMP004,EMP005,EMP006 ...

产品编号 - 78,54,21,11,09,83 ..

数量 - 12,34,67,43,70,03 ..

日期和时间 - 01/05/2014 – 11.00,01/05/2014 – 12.00,01/05/2014 – 14.00 ..

和其他文件。基于上述数据结构，将有许多实时查看的报告。

我们每天有 100 万行插入。我已经将 Casandra 缩小为 NO-SQL 数据库。

现在我需要一个可以查询和管理实时分析的数据库。听说并阅读了这些开源工具，例如 - Hbase、Pig、Hive、Presto DB、Impala、Sharp、Shark 等。

目前，我无法判断哪个最适合我的实时分析和预测产品销售应用程序。

您的帮助和指导将不胜感激。

谢谢

cassandra hbase apache-pig presto shark-sql

2014-05-24T07:05:12.227

0 投票

1 回答

385 浏览

apache-spark - 是否可以对 Spark Streaming 数据运行 Shark 查询？

是否可以对 Spark Streaming 应用程序的 DStreams 中包含的数据运行 Shark 查询？（例如在 foreachRDD 调用中）

是否有任何特定的 API 可以做到这一点？

谢谢。

apache-spark shark-sql

2014-06-04T23:58:13.250

0 投票

0 回答

351 浏览

hadoop - 尝试使用 Apache Shark 执行 SQL 时出现异常

我正在尝试将配置单元元存储与 Shark-0.9.1 (hive-0.11.0) 一起使用。现在，我很乐意让它在单个节点上运行，因此不涉及奴隶制。在运行 hive 时，我可以创建表并执行 SQL 语句，例如

使用火花时，几乎唯一有效的是

它显示了以前使用 hive 创建的表。

像上面的 SELECT 一样的任何其他语句都会给我一个错误。

（还有更多“在 java.lang....”）。

我还注意到，在初始化鲨鱼时，我收到以下消息：

有什么想法可能是这些问题的原因吗？我应该补充一点，我对此很陌生，所以这可能是我错过的一些非常基本的事情。

hadoop hive shark-sql

2014-06-06T00:33:59.877

1 2 3 4 5 6 7 8 9 10

问题标签 [shark-sql]

Reference