问题标签 [shark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Apache Shark 0.9.1 无法连接到 HDFS?
在 Shark 中,当我运行时:
我得到:
错误日志显示:
有谁知道为什么 Shark 不在 Hadoop 中创建表?
scala - Scala Spark / Shark:如何访问 Hortonworks 中现有的 Hive 表?
我正在尝试查找有关该主题的方法的一些文档/描述,请提供帮助。我安装了 Hortonworks 的 Hadoop 2.2.0 和一些我需要查询的现有 Hive 表。Hive SQL 在单节点和集群上的运行速度也异常缓慢。我希望 Shark 能更快地工作。
从 Spark/Shark 文档中,我无法弄清楚如何让 Shark 与现有的 Hive 表一起工作。任何想法如何实现这一目标?谢谢!
json - 将多个 JSON 记录从一个文件加载到 HIVE
我正在尝试使用 JSON Serde 将 JSON 文件加载到 Hive 中。我能够一次让它为一个 JSON 文件工作,但我想知道是否有可能一次在 JSON 文件中有多个记录并一次加载它们。给出一个想法,我的 JSON 文件如下所示:
文件 1
文件 2
我将它们组合成一个 JSON 文件,如下所示:
当我加载这个文件时,只加载了第一条记录。我的表 DDL 如下:
我使用标准LOAD
命令。
当我查询表时,只插入了一条记录。
我在创建 JSON 文件时做错了吗?或者不可能在一个 JSON 文件中有两条记录?任何帮助将非常感激。
谢谢,TM
scala - Shark 中的无效缓存类型异常
我正在尝试在shark-0.8.0
. 根据文档(https://github.com/amplab/shark/wiki/Shark-User-Guide),我创建了如下表:
该表已创建,我可以使用LOAD DATA
命令加载数据。但是当我尝试查询该表时,即使是一条SELECT COUNT(1)
语句也失败并出现以下错误:
根据 GitHub 上的代码 ( https://github.com/amplab/shark/blob/master/src/main/scala/shark/memstore2/CacheType.scala ),该选项MEMORY
是有效的。我也尝试了MEMORY_ONLY
选项,它给了我同样的错误。关于这里出了什么问题的任何建议或想法?
谢谢,TM
scala - 从 Scala (shark-shell) 访问 Shark 表 (Hive)
我有shark-0.8.0
哪个在hive-0.9.0
. 我可以通过调用在 Hive 上编程shark
。我创建了一些表并在其中加载了数据。
现在,我正在尝试使用Scala
. 我Scala
使用shark-shell
. 但是当我尝试选择时,我得到一个表不存在的错误。
从文档 ( https://github.com/amplab/shark/wiki/Shark-User-Guide ) 中,这些步骤足以Shark
启动和运行并使用Scala
. 还是我错过了什么?是否有一些配置文件需要修改以启用对 Shark 的访问shark-shell
?
hadoop - 从基于 JSON Serde 的 Hive 表将数据加载到 Parquet 表中的问题
我有一个HIVE
使用JSON Serde
. 我正在使用Shark
发行版(http://shark.cs.berkeley.edu/)。定义如下:
我能够成功地将数据加载到该表中。现在,我Parquet
在HIVE
.
现在,我尝试使用以下命令将表中的数据加载到JSON Serde
表中:Parquet
insert
语句成功完成。但是当我查询Parquet
表中的数据时,所有列都填充了NULL
值。我在网上搜索了类似的问题,但还没有看到类似的东西。有人对这里出了什么问题有一些想法吗?
谢谢,维沙赫
sql - HIVE 中的 LIMIT 子句真的是随机的吗?
说明该条款的文档。我一直在一个表上运行一个表,其中包含多个记录,但它总是返回相同的记录。HIVE
LIMIT
returns rows chosen at random
SELECT
800,000
LIMIT 1
我正在使用该Shark
发行版,我想知道这是否与这种意外行为有关?任何想法将不胜感激。
谢谢,维沙赫
cassandra - 使用 cassandra 实时处理大数据
我正在为销售人员开发应用程序。我无法弄清楚如何在我的应用程序中管理大数据。以下是场景。
我根据以下标准划分了位置。
Country => State => City => Territory => Area => Outlet。
我管理日常销售的表格结构大致如下。
插座 ID - 1,2,3,4,5,6 ...
用户 ID - EMP001,EMP002,EMP003,EMP004,EMP005,EMP006 ...
产品编号 - 78,54,21,11,09,83 ..
数量 - 12,34,67,43,70,03 ..
日期和时间 - 01/05/2014 – 11.00,01/05/2014 – 12.00,01/05/2014 – 14.00 ..
和其他文件。基于上述数据结构,将有许多实时查看的报告。
我们每天有 100 万行插入。我已经将 Casandra 缩小为 NO-SQL 数据库。
现在我需要一个可以查询和管理实时分析的数据库。听说并阅读了这些开源工具,例如 - Hbase、Pig、Hive、Presto DB、Impala、Sharp、Shark 等。
目前,我无法判断哪个最适合我的实时分析和预测产品销售应用程序。
您的帮助和指导将不胜感激。
谢谢
apache-spark - 是否可以对 Spark Streaming 数据运行 Shark 查询?
是否可以对 Spark Streaming 应用程序的 DStreams 中包含的数据运行 Shark 查询?(例如在 foreachRDD 调用中)
是否有任何特定的 API 可以做到这一点?
谢谢。
hadoop - 尝试使用 Apache Shark 执行 SQL 时出现异常
我正在尝试将配置单元元存储与 Shark-0.9.1 (hive-0.11.0) 一起使用。现在,我很乐意让它在单个节点上运行,因此不涉及奴隶制。在运行 hive 时,我可以创建表并执行 SQL 语句,例如
使用火花时,几乎唯一有效的是
它显示了以前使用 hive 创建的表。
像上面的 SELECT 一样的任何其他语句都会给我一个错误。
(还有更多“在 java.lang....”)。
我还注意到,在初始化鲨鱼时,我收到以下消息:
有什么想法可能是这些问题的原因吗?我应该补充一点,我对此很陌生,所以这可能是我错过的一些非常基本的事情。