问题标签 [hive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3565 浏览

hadoop - hive : 从分布式缓存中删除东西

我可以通过添加东西到分布式缓存

然后运行一堆HQL。

现在当我有一系列命令时,如下所示

在这种情况下largelookuptable1,第二个查询不必要地可用。有没有办法在第二个查询运行之前摆脱它?

0 投票
3 回答
4913 浏览

hadoop - 如何有效地使用 hive 对大数据进行排序(排序)?

我想有效地对大数据集进行排序(即使用自定义分区器,如下所述:MapReduce 排序算法如何工作?),但我想用 hive 来做。

但是,Hive 手册指出“order by”是由单个 reducer 执行的。这让我感到惊讶,因为 pig 确实实现了与文章类似的东西 - pig impl

我是否遗漏了什么,或者蜂巢根本不是这项工作的合适锤子?

0 投票
1 回答
1275 浏览

hive - Apache HIVE 作业作为 Web 服务

我想将 HIVE 公开为 Web 服务,以便我的 PHP 程序可以调用 Web 服务以在 UI 中显示输出。我不确定如何在 HIVE 中执行此操作。

0 投票
5 回答
7974 浏览

nosql - 实时查询/聚合数百万条记录-hadoop?hbase?卡珊德拉?

我有一个可以并行化的解决方案,但我(还)没有使用 hadoop/nosql 的经验,我不确定哪种解决方案最适合我的需求。理论上,如果我有无限的 CPU,我的结果应该会立即返回。因此,任何帮助将不胜感激。谢谢!

这是我所拥有的:

  • 1000 个数据集
  • 数据集键:
    • 所有数据集都有相同的键
    • 100 万个密钥(以后可能是 10 或 2000 万个)
  • 数据集列:
    • 每个数据集都有相同的列
    • 10 到 20 列
    • 大多数列是我们需要聚合的数值(avg,stddev,并使用 R 计算统计信息)
    • 一些列是“type_id”列,因为在特定查询中我们可能只想包含某些 type_id
  • Web应用程序
    • 用户可以选择他们感兴趣的数据集(从 15 到 1000)
    • 应用程序需要呈现:key,以及每列的聚合结果(avg,stddev)
  • 数据更新:
    • 可以添加、删除或替换/更新整个数据集
    • 能够添加列会很酷。但是,如果需要,可以只替换整个数据集。
    • 永远不要向数据集添加行/键 - 所以不需要具有大量快速写入的系统
  • 基础设施:
    • 目前有两台机器,每台 24 核
    • 最终,希望能够在亚马逊上运行它

我无法预先计算我的聚合值,但由于每个键都是独立的,因此应该很容易扩展。目前,我在 postgres 数据库中有这些数据,其中每个数据集都在自己的分区中。

  • 分区很好,因为可以轻松添加/删除/替换分区
  • 数据库非常适合基于 type_id 进行过滤
  • 数据库不容易编写并行查询
  • 数据库适合结构化数据,而我的数据不是结构化的

作为概念证明,我尝试了 hadoop:

  • 为特定 type_id 为每个数据集创建了一个制表符分隔文件
  • 上传到 hdfs
  • map:为每个键检索一个值/列
  • 减少:计算的平均值和标准差

从我粗略的概念验证中,我可以看到这将很好地扩展,但我可以看到 hadoop/hdfs 有延迟 我读到它通常不用于实时查询(即使我可以返回结果5 秒后返回给用户)。

关于我应该如何处理这个问题的任何建议?我正在考虑接下来尝试 HBase 来感受一下。我应该看看 Hive 吗?卡桑德拉?伏地魔?

谢谢!

0 投票
2 回答
14968 浏览

hadoop - Hive 在安装时不起作用

执行任何命令时,我在 Hive 中收到以下错误。

这在 hive.log 中。

元数据库显然存在问题,但错误非常隐晦,安装指南没有说明配置元数据库的任何内容。

0 投票
1 回答
1000 浏览

hive - 为用户定义的函数部署 jar

https://cwiki.apache.org/confluence/display/Hive/HivePlugins

Hive 提供了一种使用“添加 jar”命令注册用户定义函数的方法,应用程序应如何以编程方式注册这些 jar?

如果用户定义函数中的特定类定义发生更改,我应该使用“添加 jar”还是有不同的命令来实现这一点。

0 投票
6 回答
17267 浏览

sql - RDBMS 和 Hive 有什么区别?

在像 MySQL 这样的 RDMS 中,有数据库,Hive 上也有数据库吗?正如我在手册上阅读的那样,hive 只有表,我对此有点困惑..

RDBMS 和 Hive 的不同概念是什么?

之前的Tks

0 投票
1 回答
773 浏览

cassandra - 轻快的 cassandra TimeUUIDType

我用的是轻快的。cassandra 列族自动映射到 Hive 表。
但是,如果列族中的数据类型为 timeuuid,则在 Hive 表中不可读。

例如,我使用以下命令在 hive 中创建一个外部表来映射列族。

如果 cassandra 中的列名是 TimeUUIDType,则它在 Hive 表中变得不可读。

例如,cassandra 列族中的一行如下所示:

其中列名是 TimeUUIDType。

在 hive 表中,它看起来像以下行:

因此,Hive 表中的列名是不可读的。

0 投票
3 回答
9798 浏览

hadoop - 在 Hive 中使用排序表

总结:我觉得我的系统忽略了预排序表的概念。- 我希望节省排序步骤的时间,因为我使用的是预先排序的数据,但查询计划似乎表明中间排序步骤。

肮脏的细节如下:

设置 =======

我设置了以下标志:=============

在这里,我创建了一个表来保存磁盘上的数据的临时副本 ========

这里我将磁盘上的数据复制到表 BTW 中,这里的数据按符号聚类并按时间排序。我似乎无法让 Hive 使用这个概念......即避免再次排序

我使用下面的最终表来强制执行分桶 =========== 并强制排序 ===========

数据从配置单元表加载 ==========

令人失望的是,关于所有交易的任何查询都需要排序符号,时间会重新排序......有没有办法解决这个问题?另外,有没有办法让整个过程在 1 个查询步骤而不是 2 个查询步骤中工作?

为什么排序似乎不起作用=======

请注意,该表是使用 sort by 子句构建和填充的。我担心删除这些会导致未来的减速器表现得好像不需要排序一样。

这是我认为不应该涉及排序的查询计划......但实际上确实如此。========

0 投票
1 回答
1948 浏览

api - 使用hue api注册hive udf

如何使用 HUE API 注册 UDF?我正在使用以下代码,但无法注册。

执行此代码会在最后一行引发 INVALID FUNCTION 计算。