“hive”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

3565 浏览

hadoop - hive : 从分布式缓存中删除东西

我可以通过添加东西到分布式缓存

然后运行一堆HQL。

现在当我有一系列命令时，如下所示

在这种情况下largelookuptable1，第二个查询不必要地可用。有没有办法在第二个查询运行之前摆脱它？

2011-07-11T03:30:40.383

0 投票

3 回答

4913 浏览

hadoop - 如何有效地使用 hive 对大数据进行排序（排序）？

我想有效地对大数据集进行排序（即使用自定义分区器，如下所述：MapReduce 排序算法如何工作？），但我想用 hive 来做。

但是，Hive 手册指出“order by”是由单个 reducer 执行的。这让我感到惊讶，因为 pig 确实实现了与文章类似的东西 - pig impl

我是否遗漏了什么，或者蜂巢根本不是这项工作的合适锤子？

hadoop mapreduce hive apache-pig

2011-07-12T11:32:27.567

0 投票

1 回答

1275 浏览

hive - Apache HIVE 作业作为 Web 服务

我想将 HIVE 公开为 Web 服务，以便我的 PHP 程序可以调用 Web 服务以在 UI 中显示输出。我不确定如何在 HIVE 中执行此操作。

hive

2011-07-20T06:38:05.183

0 投票

5 回答

7974 浏览

nosql - 实时查询/聚合数百万条记录-hadoop？hbase？卡珊德拉？

我有一个可以并行化的解决方案，但我（还）没有使用 hadoop/nosql 的经验，我不确定哪种解决方案最适合我的需求。理论上，如果我有无限的 CPU，我的结果应该会立即返回。因此，任何帮助将不胜感激。谢谢！

这是我所拥有的：

1000 个数据集
数据集键：
- 所有数据集都有相同的键
- 100 万个密钥（以后可能是 10 或 2000 万个）
数据集列：
- 每个数据集都有相同的列
- 10 到 20 列
- 大多数列是我们需要聚合的数值（avg，stddev，并使用 R 计算统计信息）
- 一些列是“type_id”列，因为在特定查询中我们可能只想包含某些 type_id
Web应用程序
- 用户可以选择他们感兴趣的数据集（从 15 到 1000）
- 应用程序需要呈现：key，以及每列的聚合结果（avg，stddev）
数据更新：
- 可以添加、删除或替换/更新整个数据集
- 能够添加列会很酷。但是，如果需要，可以只替换整个数据集。
- 永远不要向数据集添加行/键 - 所以不需要具有大量快速写入的系统
基础设施：
- 目前有两台机器，每台 24 核
- 最终，希望能够在亚马逊上运行它

我无法预先计算我的聚合值，但由于每个键都是独立的，因此应该很容易扩展。目前，我在 postgres 数据库中有这些数据，其中每个数据集都在自己的分区中。

分区很好，因为可以轻松添加/删除/替换分区
数据库非常适合基于 type_id 进行过滤
数据库不容易编写并行查询
数据库适合结构化数据，而我的数据不是结构化的

作为概念证明，我尝试了 hadoop：

为特定 type_id 为每个数据集创建了一个制表符分隔文件
上传到 hdfs
map：为每个键检索一个值/列
减少：计算的平均值和标准差

从我粗略的概念验证中，我可以看到这将很好地扩展，但我可以看到 hadoop/hdfs 有延迟我读到它通常不用于实时查询（即使我可以返回结果5 秒后返回给用户）。

关于我应该如何处理这个问题的任何建议？我正在考虑接下来尝试 HBase 来感受一下。我应该看看 Hive 吗？卡桑德拉？伏地魔？

谢谢！

nosql hadoop cassandra hbase hive

2011-07-26T17:12:31.710

0 投票

2 回答

14968 浏览

hadoop - Hive 在安装时不起作用

执行任何命令时，我在 Hive 中收到以下错误。

这在 hive.log 中。

元数据库显然存在问题，但错误非常隐晦，安装指南没有说明配置元数据库的任何内容。

hadoop hive

2011-07-28T02:18:18.420

0 投票

1 回答

1000 浏览

hive - 为用户定义的函数部署 jar

https://cwiki.apache.org/confluence/display/Hive/HivePlugins

Hive 提供了一种使用“添加 jar”命令注册用户定义函数的方法，应用程序应如何以编程方式注册这些 jar？

如果用户定义函数中的特定类定义发生更改，我应该使用“添加 jar”还是有不同的命令来实现这一点。

hive

2011-08-01T09:06:47.750

0 投票

6 回答

17267 浏览

sql - RDBMS 和 Hive 有什么区别？

在像 MySQL 这样的 RDMS 中，有数据库，Hive 上也有数据库吗？正如我在手册上阅读的那样，hive 只有表，我对此有点困惑..

RDBMS 和 Hive 的不同概念是什么？

之前的Tks

sql hadoop data-warehouse hive

2011-08-02T21:47:58.550

0 投票

1 回答

773 浏览

cassandra - 轻快的 cassandra TimeUUIDType

我用的是轻快的。cassandra 列族自动映射到 Hive 表。
但是，如果列族中的数据类型为 timeuuid，则在 Hive 表中不可读。

例如，我使用以下命令在 hive 中创建一个外部表来映射列族。

如果 cassandra 中的列名是 TimeUUIDType，则它在 Hive 表中变得不可读。

例如，cassandra 列族中的一行如下所示：

其中列名是 TimeUUIDType。

在 hive 表中，它看起来像以下行：

因此，Hive 表中的列名是不可读的。

cassandra hive read-unread brisk

2011-08-03T20:28:57.397

0 投票

3 回答

9798 浏览

hadoop - 在 Hive 中使用排序表

总结：我觉得我的系统忽略了预排序表的概念。- 我希望节省排序步骤的时间，因为我使用的是预先排序的数据，但查询计划似乎表明中间排序步骤。

肮脏的细节如下：

设置 =======

我设置了以下标志：=============

在这里，我创建了一个表来保存磁盘上的数据的临时副本 ========

这里我将磁盘上的数据复制到表 BTW 中，这里的数据按符号聚类并按时间排序。我似乎无法让 Hive 使用这个概念......即避免再次排序

我使用下面的最终表来强制执行分桶 =========== 并强制排序 ===========

数据从配置单元表加载 ==========

令人失望的是，关于所有交易的任何查询都需要排序符号，时间会重新排序......有没有办法解决这个问题？另外，有没有办法让整个过程在 1 个查询步骤而不是 2 个查询步骤中工作？

为什么排序似乎不起作用=======

请注意，该表是使用 sort by 子句构建和填充的。我担心删除这些会导致未来的减速器表现得好像不需要排序一样。

这是我认为不应该涉及排序的查询计划......但实际上确实如此。========

hadoop hive

2011-08-03T23:01:19.767

0 投票

1 回答

1948 浏览

api - 使用hue api注册hive udf

如何使用 HUE API 注册 UDF？我正在使用以下代码，但无法注册。

执行此代码会在最后一行引发 INVALID FUNCTION 计算。

api hadoop user-defined-functions hive hue

2011-08-04T07:18:25.627

问题标签 [hive]

Reference