问题标签 [hive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
775 浏览

hadoop - Apache Hive 更多地用于编程语言还是数据仓库方面?

我曾经认为 Hive 只是一种类似于 SQL 的编程语言,用于使编写 MapReduce 类型的作业更容易(即,类似于 SQL 的 Pig/Pig Latin 版本)。不过,我现在正在阅读更多关于它的内容,显然它实际上是一个完整的数据仓库基础设施。

这些用例之一是否更常见?也就是说,它主要用于它提供的数据仓库基础设施,还是更多地用于类似 SQL 的接口?还是两个方面的效用和重要性相同?

(我问是因为我想弄清楚我应该专注于学习 Hive 的哪些部分。)

0 投票
3 回答
12773 浏览

hadoop - Hive (Hadoop) 中的 COLLECT_SET()

我刚刚了解了 Hive 中的 collect_set() 函数,并开始在开发 3 节点集群上工作。

我只有大约 10 GB 的空间要处理。然而,这项工作实际上是永远的。我认为 collect_set() 的实现中可能存在错误,我的代码中存在错误,或者 collect_set() 函数确实是资源密集型的。

这是用于 Hive 的我的 SQL(没有双关语):

有 4 个 MR 通行证。第一个大约需要 30 秒。第二张地图用了大约 1 分钟。第二次减少的大部分时间大约需要 2 分钟。在过去的两个小时内,它从 97.71% 增加到 97.73%。这是正确的吗?我想一定有什么问题。我看了看日志,不知道是否正常。

[日志样本]

我对此很陌生,尝试使用 collect_set() 和 Hive Array 让我远离了深渊。

提前致谢 :)

0 投票
9 回答
66514 浏览

java - Hive 中的 COLLECT_SET(),保留重复项?

有没有办法将重复项保存在 Hive 的收集集中,或者使用其他方法模拟 Hive 提供的那种聚合集合?我想将列中具有相同键的所有项目聚合到一个数组中,并带有重复项。

IE:

应该返回:

0 投票
1 回答
762 浏览

maven-2 - 在 Maven 项目中使用 Hive

我有一个项目,我正在从 ant 迁移到 maven。该项目使用了轻度定制的 Hive 构建。我想我只需将此构建导入我们的内部 maven 存储库,并将其列为项目 pom 文件中的依赖项。我遇到的问题是 Hive 构建只是在 build/dist/lib 中生成了一堆 jar。其中一些是核心 Hive jar 本身,一些是 Hive 所依赖的 jar。处理这些问题的最佳方法是什么?我是否应该将所有核心 hive jar 放入我们的内部 repo 并只处理新项目的 pom 文件中未记录的依赖项?或者只是把所有东西都装成一罐罐子,然后把它部署到 repo 中?这种方法会奏效吗?仍然是一个行家新手,感谢您的帮助。

0 投票
1 回答
957 浏览

hadoop - Hive - 工作跟踪?

我已经通过这些方法,但我似乎无法找出如何推断 Hive 中工作的完成百分比(如 eventListener!)。请帮忙!编辑 - 我认为您可以从客户端获得“我已完成映射......所以我已完成 50%”(如果我要提交命令 OVERWRITE EXTERNAL TABLE)。带有 Brisk 的 OpsCenter(由 Datastax 提供)就是这样做的。

0 投票
1 回答
438 浏览

java - R Hive 安装问题和故障排除

我正在尝试使用 R 进行分布式文本挖掘。第一步是让 Hive 在本地机器上使用 R。

所以我执行了以下步骤:

  1. 在本地机器上安装 Hadoop
  2. 在本地机器上启动 R。并安装了 rJava 和 Hive

我遇到的主要问题是 R 的 rJava 和 Hive 使用的 Java 库与 Hadoop 使用的不同。

你遇到过这个问题吗?有什么线索吗?

0 投票
7 回答
11107 浏览

hadoop - sqoop 导入完成但配置单元显示表看不到表

安装 hadoop, hive (CDH 版本) 后我执行

一切正常,但是当我进入 hive 命令行并执行 show tables 时,什么都没有。我使用 ./hadoop fs -ls,我可以看到 /user/(username)/user 存在。

任何帮助表示赞赏。

- -编辑 - - - - - -

导入失败的原因:

0 投票
3 回答
1859 浏览

hbase - Hive:如何按行时间戳检索数据

我正在使用 hive 在 HBase 表上运行选择查询。

我想检索时间戳值低于 X 的所有行。

我的问题是如何创建这样的选择查询(我是否需要以特定方式创建 Hive 表?)

0 投票
1 回答
7209 浏览

hadoop - 解析并加载到 Hive/Hadoop

我是 hadoop map reduce 框架的新手,我正在考虑使用 hadoop map reduce 来解析我的数据。我有数千个大的分隔文件,我正在考虑编写一个 map reduce 作业来解析这些文件并将它们加载到 hive 数据仓库中。我在 perl 中编写了一个解析器,可以解析这些文件。但我坚持对 Hadoop map reduce 做同样的事情

例如:我有一个像 x=ay=bz=c..... x=py=qz=s..... x=1 z=2 .... 这样的文件

现在我必须将此文件作为 hive 表中的列 (x,y,z) 加载,但我无法弄清楚我是否可以继续它。任何与此相关的指导都会非常有帮助。

这样做的另一个问题是有些文件缺少字段 y。我必须在 map reduce 作业中包含该条件。到目前为止,我已经尝试使用 streaming.jar 并将我的 parser.pl 作为映射器作为该 jar 文件的输入。我认为这不是这样做的方法:),但我只是在尝试是否可行。另外,我想过使用 Hive 的加载功能,但是如果我在 hive 表中指定 regexserde,缺少的列会产生问题。

我现在迷失了,如果有人可以指导我,我将不胜感激:)

问候, 阿图尔

0 投票
4 回答
10882 浏览

hadoop - 按现有字段分区 Hive 表?

我可以在插入现有字段时对 Hive 表进行分区吗?

我有一个 10 GB 的文件,其中包含一个日期字段和一个小时字段。我可以将此文件加载到表中,然后插入覆盖到另一个使用这些字段作为分区的分区表中吗?会像以下工作吗?

谢谢!

特拉维斯