问题标签 [hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - hive : 从分布式缓存中删除东西
我可以通过添加东西到分布式缓存
然后运行一堆HQL。
现在当我有一系列命令时,如下所示
在这种情况下largelookuptable1
,第二个查询不必要地可用。有没有办法在第二个查询运行之前摆脱它?
hadoop - 如何有效地使用 hive 对大数据进行排序(排序)?
我想有效地对大数据集进行排序(即使用自定义分区器,如下所述:MapReduce 排序算法如何工作?),但我想用 hive 来做。
但是,Hive 手册指出“order by”是由单个 reducer 执行的。这让我感到惊讶,因为 pig 确实实现了与文章类似的东西 - pig impl
我是否遗漏了什么,或者蜂巢根本不是这项工作的合适锤子?
hive - Apache HIVE 作业作为 Web 服务
我想将 HIVE 公开为 Web 服务,以便我的 PHP 程序可以调用 Web 服务以在 UI 中显示输出。我不确定如何在 HIVE 中执行此操作。
nosql - 实时查询/聚合数百万条记录-hadoop?hbase?卡珊德拉?
我有一个可以并行化的解决方案,但我(还)没有使用 hadoop/nosql 的经验,我不确定哪种解决方案最适合我的需求。理论上,如果我有无限的 CPU,我的结果应该会立即返回。因此,任何帮助将不胜感激。谢谢!
这是我所拥有的:
- 1000 个数据集
- 数据集键:
- 所有数据集都有相同的键
- 100 万个密钥(以后可能是 10 或 2000 万个)
- 数据集列:
- 每个数据集都有相同的列
- 10 到 20 列
- 大多数列是我们需要聚合的数值(avg,stddev,并使用 R 计算统计信息)
- 一些列是“type_id”列,因为在特定查询中我们可能只想包含某些 type_id
- Web应用程序
- 用户可以选择他们感兴趣的数据集(从 15 到 1000)
- 应用程序需要呈现:key,以及每列的聚合结果(avg,stddev)
- 数据更新:
- 可以添加、删除或替换/更新整个数据集
- 能够添加列会很酷。但是,如果需要,可以只替换整个数据集。
- 永远不要向数据集添加行/键 - 所以不需要具有大量快速写入的系统
- 基础设施:
- 目前有两台机器,每台 24 核
- 最终,希望能够在亚马逊上运行它
我无法预先计算我的聚合值,但由于每个键都是独立的,因此应该很容易扩展。目前,我在 postgres 数据库中有这些数据,其中每个数据集都在自己的分区中。
- 分区很好,因为可以轻松添加/删除/替换分区
- 数据库非常适合基于 type_id 进行过滤
- 数据库不容易编写并行查询
- 数据库适合结构化数据,而我的数据不是结构化的
作为概念证明,我尝试了 hadoop:
- 为特定 type_id 为每个数据集创建了一个制表符分隔文件
- 上传到 hdfs
- map:为每个键检索一个值/列
- 减少:计算的平均值和标准差
从我粗略的概念验证中,我可以看到这将很好地扩展,但我可以看到 hadoop/hdfs 有延迟 我读到它通常不用于实时查询(即使我可以返回结果5 秒后返回给用户)。
关于我应该如何处理这个问题的任何建议?我正在考虑接下来尝试 HBase 来感受一下。我应该看看 Hive 吗?卡桑德拉?伏地魔?
谢谢!
hadoop - Hive 在安装时不起作用
执行任何命令时,我在 Hive 中收到以下错误。
这在 hive.log 中。
元数据库显然存在问题,但错误非常隐晦,安装指南没有说明配置元数据库的任何内容。
hive - 为用户定义的函数部署 jar
https://cwiki.apache.org/confluence/display/Hive/HivePlugins
Hive 提供了一种使用“添加 jar”命令注册用户定义函数的方法,应用程序应如何以编程方式注册这些 jar?
如果用户定义函数中的特定类定义发生更改,我应该使用“添加 jar”还是有不同的命令来实现这一点。
sql - RDBMS 和 Hive 有什么区别?
在像 MySQL 这样的 RDMS 中,有数据库,Hive 上也有数据库吗?正如我在手册上阅读的那样,hive 只有表,我对此有点困惑..
RDBMS 和 Hive 的不同概念是什么?
之前的Tks
cassandra - 轻快的 cassandra TimeUUIDType
我用的是轻快的。cassandra 列族自动映射到 Hive 表。
但是,如果列族中的数据类型为 timeuuid,则在 Hive 表中不可读。
例如,我使用以下命令在 hive 中创建一个外部表来映射列族。
如果 cassandra 中的列名是 TimeUUIDType,则它在 Hive 表中变得不可读。
例如,cassandra 列族中的一行如下所示:
其中列名是 TimeUUIDType。
在 hive 表中,它看起来像以下行:
因此,Hive 表中的列名是不可读的。
hadoop - 在 Hive 中使用排序表
总结:我觉得我的系统忽略了预排序表的概念。- 我希望节省排序步骤的时间,因为我使用的是预先排序的数据,但查询计划似乎表明中间排序步骤。
肮脏的细节如下:
设置 =======
我设置了以下标志:=============
在这里,我创建了一个表来保存磁盘上的数据的临时副本 ========
这里我将磁盘上的数据复制到表 BTW 中,这里的数据按符号聚类并按时间排序。我似乎无法让 Hive 使用这个概念......即避免再次排序
我使用下面的最终表来强制执行分桶 =========== 并强制排序 ===========
数据从配置单元表加载 ==========
令人失望的是,关于所有交易的任何查询都需要排序符号,时间会重新排序......有没有办法解决这个问题?另外,有没有办法让整个过程在 1 个查询步骤而不是 2 个查询步骤中工作?
为什么排序似乎不起作用=======
请注意,该表是使用 sort by 子句构建和填充的。我担心删除这些会导致未来的减速器表现得好像不需要排序一样。
这是我认为不应该涉及排序的查询计划......但实际上确实如此。========
api - 使用hue api注册hive udf
如何使用 HUE API 注册 UDF?我正在使用以下代码,但无法注册。
执行此代码会在最后一行引发 INVALID FUNCTION 计算。